JP4859982B2

JP4859982B2 - 音声認識装置

Info

Publication number: JP4859982B2
Application number: JP2009521505A
Authority: JP
Inventors: 譲井上; 鈴木　　忠; 史尚佐藤; 尚嘉竹裏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-07-02
Filing date: 2008-03-27
Publication date: 2012-01-25
Anticipated expiration: 2028-03-27
Also published as: WO2009004750A1; JPWO2009004750A1; US8407051B2; US20110208525A1; CN101689366A; CN101689366B; DE112008001334B4; DE112008001334T5

Description

この発明は、車両に搭載されて、ユーザが発話した音声を認識する音声認識装置に関する。

従来、音声を用いてシステムとユーザとの間で対話を行う音声対話システムが知られている（例えば、特許文献１参照）。この音声対話システムは、ユーザに対してシステム側音声を出力するスピーカと、スピーカから出力されたシステム側音声に従ってユーザが発した音声を音声信号に変換するマイクロフォンと、マイクロフォンへ入力された音声を音声認識する音声認識部と、音声をマイクロフォンにより変換した音声信号および応答生成部からの応答音声信号に基づいて発声タイミングを検出する発声タイミング検出部と、発声タイミングを用いてユーザの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定された習熟度に応じてシステム側音声の出力内容を変更する音声出力変更部とを備えている。

一般に、音声認識装置においては、音声認識は、ユーザが発話した音声の音響的特徴のみに左右され、例えば、ユーザによる認識開始ボタンの押下等によってシステムが認識可能状態に遷移してから、実際に発話が開始されるまでの時間（以下、「発話タイミング」という）は認識結果に影響を及ぼさない。

特開２００４−３３３５４３号公報

上述した特許文献１に開示された音声対話システムは、発話タイミング、使用回数および発話速度などに基づき音声対話の習熟度を判定し、この習熟度を考慮して音声認識を行うように構成されている。しかしながら、習熟度は、システム側音声（ガイダンス音声）の出力変更にのみ適応され、認識結果に直接影響を及ぼさない。したがって、ユーザの発話タイミングによっては誤認識が発生するという問題がある。

本発明は、上述した問題を解消するためになされたものであり、その課題は、ユーザの発話タイミングに応じて、音声認識の結果に対する適切な情報をユーザに提示できる車載用の音声認識装置を提供することにある。

この発明に係る音声認識装置は、上記課題を解決するために、音声認識の開始を指示する音声開始指示部と、発話された音声を入力して音声信号に変換する音声入力部と、音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、音声開始指示部により音声認識の開始が指示されてから、音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、発話開始時間検出部で検出された時間と所定の閾値とを比較することにより発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、音声認識部で認識された語彙の音声認識スコアを、発話タイミング判定部で判定された発話タイミングに応じて補正する音声認識スコア補正部と、音声認識スコア補正部で補正された音声認識スコアに応じて、認識結果の提示の是非を判定するスコア足切り判定部と、スコア足切り判定部における判定結果に応じて、音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、システム応答生成部で生成されたシステム応答を出力する出力部とを備えている。

この発明に係る音声認識装置によれば、発話タイミングに応じた内容のシステム応答を出力するように構成したので、適切なテロップおよび応答ガイダンスをユーザに提示することができる。その結果、ユーザは、快適かつ適切な操作を行うことができ、誤認識がなされた際の不快感を軽減できる。また、ユーザの発話タイミングに応じて認識結果を補正することが可能となるので、誤認識の可能性が高い認識結果はユーザに提示しないように構成できる。その結果、ユーザが意図しない語彙が認識されるのを抑制できる。

この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態１に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態２に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態３に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態４に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態４に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態５に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態５に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態６に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態６に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態７に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態７に係る音声認識装置の動作を示すシーケンス図である。この発明の実施の形態８に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態８に係る音声認識装置の動作を示すシーケンス図である。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力部１、音声認識部２、音声開始指示部３、発話開始時間検出部４、発話タイミング判定部５、対話制御部６、システム応答生成部７、音声出力部８およびテロップ出力部９を備えている。

音声入力部１は、例えばマイクロフォンから構成されており、ユーザが発話した音声を入力して電気信号に変換し、音声信号として音声認識部２および発話開始時間検出部４に送る。

音声認識部２は、音声入力部１から送られてくる音声信号を処理することにより、ユーザが発話した音声を認識する。より詳しくは、音声認識部２は、音声入力部１から送られてくる音声信号からユーザの発話を検出する音声区間検出と、音声区間検出で得られた音声信号をパラメータ表現に変換する音響分析と、音響分析で得られた音声の最小単位を基に最尤度の音素候補を選び出して識別する確率演算と、確率演算で得られた音素と単語などを記憶した辞書とを比較して認識結果を決定する照合とを順次に実行して音声を認識する。

音響分析においては、例えばＬＰＣメルケプストラム（ＬｉｎｅａｒＰｒｅｄｉｃｔｏｒＣｏｅｆｆｉｃｉｅｎｔ）またはＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）などを利用して、音声入力部１から送られてくる音声信号が特徴ベクトル系列に変換され、音声スペクトルの概形（スペクトル包絡）が推定される。確率演算においては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などを利用して、入力された音声を基に音響分析で抽出された音響パラメータを用いて音声信号の音素記号化が行われ、予め用意された標準音素モデルと比較されて最尤度の音素候補が選び出される。照合処理においては、音素候補を基にして辞書と比較され、尤度の高い単語が選択される。以上のようにして音声認識部２において認識された語彙は、対話制御部６に送られる。

音声開始指示部３は、例えば画面上に形成された、または、操作部（図示しない）に設けられた認識開始ボタンなどから構成されている。この音声開始指示部３によって音声認識の開始が指示されると、その旨を表す音声認識開始信号が開始開示時間検出部４に送られる。音声認識装置は、この音声開始指示部３からの音声認識開始信号をトリガー（以下、「音声開始トリガー」という）として、認識可能状態に遷移する。

発話開始時間検出部４は、音声認識可能状態に遷移してから、つまり、音声開始指示部３から音声認識開始信号を受け取ってから、実際にユーザの発話が開始されるまで、つまり音声入力部１から音声信号が入力されるまでの時間を検出する。この発話開始時間検出部４で検出された時間は、発話開始時間として発話タイミング判定部５に送られる。

発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間に基づき、発話タイミングを判定する。より詳しくは、発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間が所定の閾値以下である場合は、発話タイミングが「早い」と判定し、所定の閾値より大きい場合は、発話タイミングが「遅い」と判定する。この発話タイミング判定部５において判定された発話タイミングは、対話制御部６に送られる。

対話制御部６は、発話タイミング判定部５から送られてくる発話タイミングに応じて、ユーザへの提示内容を決定する。具体的には、対話制御部６は、音声認識部２から送られてくる語彙をユーザに提示する際のシステム応答（テロップおよび応答ガイダンス）を決定するが、この際、発話タイミング判定部５で判定された発話タイミング（早い／遅い）によってシステム応答の内容を変更する。例えば、発話タイミングが早い場合は、発話者が慌てて発話したものと判断し、発話タイミングが遅い場合は、発話者が悩んで発話したものと判断し、いずれの場合も誤った語彙が認識されている可能性があるため、「○○（認識語彙）でよろしいですか？」などといった確認のガイダンスを生成する。この対話制御部６で生成された確認のガイダンスは、システム応答の生成要求とともにシステム応答生成部７に送られる。

システム応答生成部７は、対話制御部６から送られてくるシステム応答の生成要求に応答して、同時に送られてくる確認のガイダンスに応じたシステム応答（テロップおよび応答ガイダンス）を生成する。このシステム応答生成部７で生成されたシステム応答は、音声出力部８およびテロップ出力部９に送られる。

音声出力部８は、例えばスピーカから構成されており、この発明の出力部の一部に対応する。この音声出力部８は、システム応答生成部７から送られてくるシステム応答に含まれる応答ガイダンスを音声で出力する。

テロップ出力部９は、例えば液晶ディスプレイ装置といった表示装置から構成されており、この発明の出力部の他の一部に対応する。このテロップ出力部９は、システム応答生成部７から送られてくるシステム応答に含まれるテロップを表示する。

次に、上記のように構成される、この発明の実施の形態１に係る音声認識装置の動作を、図２に示すシーケンス図を参照しながら説明する。

まず、ユーザが音声開始指示部３を操作することにより、音声開始トリガーが発話開始時間検出部４に送られる。これにより、発話開始時間検出部４は、時間の計測を開始する。次いで、ユーザが発話すると、その音声が音声入力部１で電気信号に変換され、音声信号として音声認識部２および発話開始時間検出部４に送られる。音声入力部１からの音声信号を受け取った発話開始時間検出部４は、時間の計測を停止し、音声開始指示部３から音声開始トリガーを受け取ってから、音声入力部１から音声信号が入力されるまでの時間を検出し、発話開始時間として発話タイミング判定部５に送る。発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間に基づき発話タイミング（早い／遅い）を判定し、その判定結果を、タイミング判定結果として対話制御部６に送る。

一方、音声入力部１からの音声信号を受け取った音声認識部２は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果として得られた語彙を対話制御部６に送る。対話制御部６は、音声認識部２から送られてくる語彙をユーザに提示する際のシステム応答（テロップおよび応答ガイダンス）を決定し、この決定したシステム応答の内容を、発話タイミング判定部５から送られてくる発話タイミング（早い／遅い）に応じて変更し、確認のガイダンスとして、システム応答の生成要求とともにシステム応答生成部７に送る。

システム応答生成部７は、対話制御部６から送られてくるシステム応答の生成要求に応答して、同時に送られてくる確認のガイダンスに応じたシステム応答（テロップおよび応答ガイダンス）を生成し、音声出力部８およびテロップ出力部９に送る。これにより、音声出力部８からは、システム応答生成部７から送られてくる応答ガイダンスが音声で出力されるとともに、テロップ出力部９には、システム応答生成部７から送られてくるテロップが表示され、ユーザに提示される。

以上説明したように、この発明の実施の形態１に係る音声認識装置によれば、ユーザの発話タイミングに応じてシステム応答（テロップおよび応答ガイダンス）を変更することができる。したがって、音声認識装置は、適切なテロップおよび応答ガイダンスをユーザに提示することができるので、ユーザは、快適かつ適切な操作を行うことができ、誤認識がなされた際の不快感を軽減できる。

実施の形態２．
図３は、この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態１に係る音声認識装置に、音声認識スコア補正部１０およびスコア足切り判定部１１が追加されて構成されている。以下においては、実施の形態１に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態１に係る音声認識装置と異なる部分を中心に説明する。

実施の形態２に係る音声認識装置においては、音声認識部２は、認識した語彙を、その語彙の音声認識スコアとともに音声認識スコア補正部１０に送る。また、発話タイミング判定部５は、判定した発話タイミングを音声認識スコア補正部１０に送る。

音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正する。ここで、音声認識スコアは、認識結果の尤度を表す情報である。例えば、発話タイミングが早い場合は、発話者が慌てて発話したものと判断し、発話タイミングが遅い場合は、発話者が悩んで発話したものと判断し、いずれの場合も誤った語彙が認識されている可能性があるため、音声認識スコア補正部１０は、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部１０で補正された音声認識スコアを有する語彙は、スコア足切り判定部１１に送られる。

スコア足切り判定部１１は、音声認識スコア補正部１０から送られてくる語彙の音声認識スコアに応じて、ユーザに対する認識結果（語彙）の提示の是非を判定する。具体的には、スコア足切り判定部１１は、音声認識スコア補正部１０から送られてきた語彙の音声認識スコアが所定の閾値以上であるかどうかを調べ、所定の閾値以上であれば、その語彙を対話制御部６に送り、所定の閾値より小さければ、その語彙を対話制御部６に送らない。

対話制御部６は、音声認識部２から語彙が送られてきた場合に、その語彙をユーザに提示する際のシステム応答を決定し、ガイダンスを生成する。この対話制御部６で生成されたガイダンスは、システム応答の生成要求とともにシステム応答生成部７に送られる。

次に、上記のように構成される、この発明の実施の形態２に係る音声認識装置の動作を、図４に示すシーケンス図を参照しながら説明する。

ユーザが音声開始指示部３を操作することにより、音声開始トリガーが発話開始時間検出部４に送られてから、発話タイミング判定部５から発話タイミング（早い／遅い）が出力されるまでの動作、および、音声入力部１からの音声信号を受け取った音声認識部２が、認識結果を出力するまでの動作は、上述した実施の形態１に係る音声認識装置の動作と同じである。発話タイミング判定部５から出力される発話タイミングは音声認識スコア補正部１０に送られ、音声認識部２から出力される認識結果は、音声認識スコア補正部１０に送られる。

音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正し、スコア補正結果をスコア足切り判定部１１に送る。スコア足切り判定部１１は、音声認識スコア補正部１０から送られてくる語彙の音声認識スコアが所定の閾値以上であるかどうかを調べ、所定の閾値以上であれば、その語彙を対話制御部６に送り、所定の閾値より小さければ、その語彙を対話制御部６に送らない。

対話制御部６は、スコア足切り判定部１１から語彙が送られてきた場合に、その語彙をユーザに提示する際のシステム応答（テロップおよび応答ガイダンス）を決定し、この決定したシステム応答の内容を、ガイダンスとして、システム応答の生成要求とともにシステム応答生成部７に送る。システム応答生成部７は、対話制御部６から送られてくるシステム応答の生成要求に応答して、ガイダンスに応じたシステム応答（テロップおよび応答ガイダンス）を生成し、音声出力部８およびテロップ出力部９に送る。これにより、音声出力部８は、システム応答生成部７から送られてくる応答ガイダンスを音声で出力するとともに、テロップ出力部９は、システム応答生成部７から送られてくるテロップを表示し、ユーザに提示する。

以上説明したように、この発明の実施の形態２に係る音声認識装置によれば、ユーザの発話タイミングに応じて認識結果を補正することが可能となるので、誤認識の可能性が高い認識結果はユーザに提示しないように構成できる。その結果、ユーザが意図しない語彙が認識されるのを抑制できる。

実施の形態３．
図５は、この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態２に係る音声認識装置に、発話タイミング学習部１２が追加されて構成されている。以下においては、実施の形態２に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態２で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態２に係る音声認識装置と異なる部分を中心に説明する。

実施の形態３に係る音声認識装置においては、発話開始時間検出部４は、検出した発話開始時間を発話タイミング判定部５に送るとともに、発話タイミング学習部１２にも送る。

発話タイミング学習部１２は、発話開始時間検出部４から送られてくる発話開始時間に基づき、発話タイミングを学習する。具体的には、発話タイミング学習部１２は、発話開始時間検出部４から送られてくる発話開始時間を順次記憶している。そして、発話開始時間検出部４から新たな発話開始時間が送られてきた場合に、過去の複数回の試行で検出された発話開始時間を試行回数で除算することにより発話開始時間の平均値を算出し、平均発話タイミングとして発話タイミング判定部５に送る。

発話タイミング判定部５は、発話タイミング学習部１２から送られてくる平均発話タイミングを所定の閾値として用い、発話開始時間検出部４から送られてくる発話開始時間が所定の閾値以下である場合は、発話タイミングが「早い」と判定し、所定の閾値より大きい場合は、発話タイミングが「遅い」と判定する。そして、この判定した発話タイミングを、対話制御部６に送る。

次に、上記のように構成される、この発明の実施の形態３に係る音声認識装置の動作を、図６に示すシーケンス図を参照しながら説明する。

ユーザが音声開始指示部３を操作することにより、音声開始トリガーが発話開始時間検出部４に送られてから、発話開始時間検出部４から発話開始時間が出力されるまでの動作は、上述した実施の形態２に係る音声認識装置の動作と同じである。発話開始時間検出部４から出力された発話開始時間は、発話タイミング判定部５および発話タイミング学習部１２に送られる。

発話タイミング学習部１２は、発話開始時間検出部４から送られてくる発話開始時間に基づき平均発話タイミングを算出し、発話タイミング判定部５に送る。発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間を発話タイミング学習部１２から送られてくる平均発話タイミングと比較することにより発話タイミング（早い／遅い）を判定し、その判定結果を音声認識スコア補正部１０に送る。一方、音声入力部１からの音声信号を受け取った音声認識部２は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部１０に送る。以後の動作は、実施の形態２に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態３に係る音声認識装置によれば、発話タイミング判定部１２で使用する閾値を動的に変化させることができるので、発話タイミングの個人差を吸収できる。

なお、この実施の形態３に係る音声認識装置では、実施の形態２に係る音声認識装置に、発話タイミング学習部１２を追加するように構成したが、実施の形態１に係る音声認識装置に、発話タイミング学習部１２を追加するように構成することもできる。この場合も、上述した実施の形態３に係る音声認識装置と同様の作用および効果を奏する。

実施の形態４．
図７は、この発明の実施の形態４に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態３に係る音声認識装置における発話タイミング学習部１２が分散考慮発話タイミング学習部１３に変更されて構成されている。以下においては、実施の形態３に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態３で使用した符号と同一の符号を付して説明を省略し、実施の形態３に係る音声認識装置と異なる部分を中心に説明する。

分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間に基づき、分散を考慮して発話タイミングを学習する。より詳しくは、分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間に基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部５に送る。例えば、ユーザＡおよびユーザＢの過去５回の発話開始時間が以下のとおりであったとする。
＜ユーザＡ＞
１回目；６［ｓ］
２回目；７［ｓ］
３回目；７［ｓ］
４回目；７［ｓ］
５回目；８［ｓ］
発話開始平均時間；［ｓ］７
分散値；０．５
＜ユーザＢ＞
１回目；１５［ｓ］
２回目；３［ｓ］
３回目；６［ｓ］
４回目；４［ｓ］
５回目；７［ｓ］
発話開始平均時間；［ｓ］７
分散値；２１

ユーザＡは、平均値から各データの距離が小さいため分散値は小さくなる。一方、ユーザＢは、平均値から各データの距離が大きいため分散値は大きくなる。発話タイミング判定部５で使用される所定の閾値を、発話開始平均時間から１［ｓ］だけずらすことの意味は、ユーザＡとユーザＢとで大きく異なる。すなわち、ユーザＡの場合は影響が大きく、ユーザＢの場合は影響が小さい。したがって、発話タイミング判定部５で使用される閾値を動的に変更する場合、分散値の大小を考慮して閾値を変化させる必要がある。

次に、上記のように構成される、この発明の実施の形態４に係る音声認識装置の動作を、図８に示すシーケンス図を参照しながら説明する。

ユーザが音声開始指示部３を操作することにより、音声開始トリガーが発話開始時間検出部４に送られてから、発話開始時間検出部４から発話開始時間が出力されるまでの動作は、上述した実施の形態２に係る音声認識装置の動作と同じである。発話開始時間検出部４から出力された発話開始時間は、発話タイミング判定部５および分散考慮発話タイミング学習部１３に送られる。

分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間に基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部５に送る。発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間を分散考慮発話タイミング学習部１３から送られてくる発話タイミング判定用閾値と比較することにより発話タイミング（早い／遅い）を判定し、その判定結果を音声認識スコア補正部１０に送る。一方、音声入力部１からの音声信号を受け取った音声認識部２は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部１０に送る。以後の動作は、実施の形態３に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態４に係る音声認識装置によれば、ユーザによる発話の分散を踏まえて発話タイミング判定部５で使用する閾値を動的に変化させることができるので、ユーザの発話タイミングの揺らぎを吸収できる。

なお、この実施の形態４に係る音声認識装置では、実施の形態２に係る音声認識装置に、分散考慮発話タイミング学習部１３を追加するように構成したが、実施の形態１に係る音声認識装置に、分散考慮発話タイミング学習部１２を追加するように構成することもできる。この場合も、上述した実施の形態４に係る音声認識装置と同様の作用および効果を奏する。

実施の形態５．
図９は、この発明の実施の形態５に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態４に係る音声認識装置に、訂正キー１４が追加されるとともに、分散考慮発話タイミング学習部１３の機能が変更されて構成されている。以下においては、実施の形態４に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態４で使用した符号と同一の符号を付して説明を省略し、実施の形態４に係る音声認識装置と異なる部分を中心に説明する。

訂正キー１４は、例えば画面上または操作部（図示しない）に設けられており、認識結果がユーザに提示された後に、押下によって直前の認識結果のキャンセルを指示するために使用される。この訂正キー１４が押された旨を表す訂正信号は分散考慮発話タイミング学習部１３に送られる。

分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間と訂正キー１４から送られてくる訂正信号に基づき、分散を考慮して発話タイミングを学習する。より詳しくは、分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間と、音声出力部８から応答ガイダンスが音声で出力されてから、または、テロップ出力部９にテロップが表示されてから訂正キー１４によってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮した発話タイミング判定用閾値を算出する。この分散考慮発話タイミング学習部１３で算出された発話タイミング判定用閾値は、発話タイミング判定部５に送られる。

次に、上記のように構成される、この発明の実施の形態５に係る音声認識装置の動作を、図１０に示すシーケンス図を参照しながら説明する。

一方、先に、音声出力部８から応答ガイダンスが音声で出力されるとともに、テロップ出力部９にテロップが表示されており、この状態で訂正キー１４が押下されると、その旨を表す訂正信号が分散考慮発話タイミング学習部１３に送られる。分散考慮発話タイミング学習部１３は、発話開始時間検出部４から送られてくる発話開始時間と、音声出力部８から応答ガイダンスが音声で出力されてから、または、テロップ出力部９にテロップが表示されてから訂正キー１４によってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部５に送る。

発話タイミング判定部５は、発話開始時間検出部４から送られてくる発話開始時間を分散考慮発話タイミング学習部１３から送られてくる発話タイミング判定用閾値と比較することにより発話タイミング（早い／遅い）を判定し、その判定結果を音声認識スコア補正部１０に送る。一方、音声入力部１からの音声信号を受け取った音声認識部２は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部１０に送る。以後の動作は、実施の形態３に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態５に係る音声認識装置によれば、認識成否の情報と訂正キー１４が押下されるまでの時間を考慮して学習が行われ、発話タイミング判定用閾値が生成されるので、発話タイミングの学習をより頑健にできる。

なお、この実施の形態５に係る音声認識装置では、実施の形態４に係る音声認識装置に、訂正キー１４を追加するように構成したが、実施の形態２または実施の形態３に係る音声認識装置に、訂正キー１４を追加するように構成することもできる。この場合も、上述した実施の形態５に係る音声認識装置と同様の作用および効果を奏する。

実施の形態６．
図１１は、この発明の実施の形態６に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態５に係る音声認識装置に、走行状況検出部１５が追加されるとともに、音声認識スコア補正部１０の機能が変更されて構成されている。以下においては、実施の形態５に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態５で使用した符号と同一の符号を付して説明を省略し、実施の形態５に係る音声認識装置と異なる部分を中心に説明する。

走行状況検出部１５としては、カーナビゲーション装置などに備えられている、現在位置を検出するための測位検出装置を用いることができる。走行状況検出部１５は、測位検出装置によって得られた位置情報に基づき走行状況を検出する。この走行状況検出部１５で検出された走行状況を表すデータは、音声認識スコア補正部１０に送られる。なお、走行状況検出部１５は、位置情報に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部１５で検出された走行状況または運転操作状況を表すデータは、音声認識スコア補正部１０に送られる。

また、走行状況検出部１５としては、カーナビゲーション装置などに備えられている、加速度を検出するための加速度検出装置を用いることができる。この場合、走行状況検出部１５は、加速度検出装置によって得られた加速度値に基づき走行状況を検出する。この走行状況検出部１５で検出された走行状況を表すデータは、音声認識スコア補正部１０に送られる。なお、走行状況検出部１５は、加速度値に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部１５で検出された走行状況または運転操作状況を表すデータが、音声認識スコア補正部１０に送られる。

さらに、走行状況検出部１５としては、カーナビゲーション装置などに備えられている、現在位置を検出するための測位検出装置および加速度を検出するための加速度検出装置の両方を用いることができる。走行状況検出部１５は、測位検出装置によって得られた位置情報および加速度検出装置によって得られた加速度値に基づき走行状況を検出する。この走行状況検出部１５で検出された走行状況を表すデータは、音声認識スコア補正部１０に送られる。なお、走行状況検出部１５は、位置情報および加速度値に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部１５で検出された走行状況または運転操作状況を表すデータは、音声認識スコア補正部１０に送られる。

音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと走行状況検出部１５から送られてくる走行状況を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正する。例えば、走行状況を表すデータによって高速道路を走行中であることを判断すると、ハンドル操作またはペダル操作が少ないと考えられるため、発話のタイミングが前後した場合は、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部１０で補正された音声認識スコアが付された語彙は、スコア足切り判定部１１に送られる。

次に、上記のように構成される、この発明の実施の形態６に係る音声認識装置の動作を、図１２に示すシーケンス図を参照しながら説明する。なお、図１２においては、訂正キー１４の動作は省略してある。

ユーザが音声開始指示部３を操作することにより、音声開始トリガーが発話開始時間検出部４に送られてから、発話タイミング判定部５から発話タイミング（早い／遅い）が音声認識スコア補正部１０に送られるまでの動作、および、音声入力部１からの音声信号を受け取った音声認識部２が、認識結果を音声認識スコア補正部１０に送る動作は、上述した実施の形態５に係る音声認識装置の動作と同じである。

音声認識部２から認識結果を受け取った音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと、走行状況検出部１５から送られてくる走行状況を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部１１に送る。以後の動作は、実施の形態２に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態６に係る音声認識装置によれば、例えば現在位置などの走行状況を検出し、発話タイミングのずれが走行状況によるものか否かを判断できるので、走行状況を考慮した認識結果または応答ガイダンスなどをユーザに提示できる。

なお、この実施の形態６に係る音声認識装置では、実施の形態５に係る音声認識装置に、走行状況検出部１５を追加するように構成したが、実施の形態２〜実施の形態４のいずれか１つに係る音声認識装置に、走行状況検出部１５を追加するように構成することもできる。この場合も、上述した実施の形態６に係る音声認識装置と同様の作用および効果を奏する。

実施の形態７．
図１３は、この発明の実施の形態７に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態５に係る音声認識装置に、運転操作検出部１６が追加されるとともに、音声認識スコア補正部１０の機能が変更されて構成されている。以下においては、実施の形態５に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態５で使用した符号と同一の符号を付して説明を省略し、実施の形態５に係る音声認識装置と異なる部分を中心に説明する。

運転操作検出部１５は、車両のアクセルペダル、ブレーキペダルまたはハンドルなど（いずれも図示しない）から送られてくる信号から、現在の運転操作の状況を検出する。この運転操作検出部１６で検出された運転操作を表すデータは、音声認識スコア補正部１０に送られる。

音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと運転操作検出部１６から送られてくる運転操作を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正する。例えば、運転操作を表すデータによってバック走行中であることを判断すると、周囲の警戒に意識を集中していると考えられるため、発話のタイミングが前後した場合であっても、音声認識スコアが小さくなるように補正しない。この音声認識スコア補正部１０で補正された音声認識スコアが付された語彙は、スコア足切り判定部１１に送られる。

次に、上記のように構成される、この発明の実施の形態７に係る音声認識装置の動作を、図１４に示すシーケンス図を参照しながら説明する。なお、図１４においては、訂正キー１４の動作は省略してある。

音声認識部２から認識結果を受け取った音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと、運転操作検出部１６から送られてくる運転操作の状況を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部１１に送る。以後の動作は、実施の形態２に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態７に係る音声認識装置によれば、例えばカーブ中などといった運転操作の状況を検出し、発話タイミングのずれが運転操作の状況によるものか否かを判断できるので、運転操作の状況を考慮した認識結果または応答ガイダンスなどをユーザに提示できる。

なお、この実施の形態７に係る音声認識装置では、実施の形態５に係る音声認識装置に、運転操作検出部１６を追加するように構成したが、実施の形態２〜実施の形態４のいずれか１つに係る音声認識装置に、運転操作検出部１６を追加するように構成することもできる。この場合も、上述した実施の形態７に係る音声認識装置と同様の作用および効果を奏する。

実施の形態８．
図１５は、この発明の実施の形態８に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態５に係る音声認識装置に、車内機器操作状況収集部１７が追加されるとともに、音声認識スコア補正部１０の機能が変更されて構成されている。以下においては、実施の形態５に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態５で使用した符号と同一の符号を付して説明を省略し、実施の形態５に係る音声認識装置と異なる部分を中心に説明する。

車内機器操作状況収集部１７は、ＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）、ＭＯＳＴ（ＭｅｄｉａＯｒｉｅｎｔｅｄＳｙｓｔｅｍｓＴｒａｎｓｐｏｒｔ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）またはＦｌｅｘＲａｙなどといった車載ネットワークによって接続されたウインドウ、ドア、エアコン（エアコントローラ）、カーオーディオなどの車内機器（車載機器を含む）の操作状況を表すデータを収集する。この運転操作検出部１６で検出された車内機器の操作状況を表すデータは、音声認識スコア補正部１０に送られる。

音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと運転操作検出部１６から送られてくる車内機器の操作状況を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正する。例えば、エアコン操作中あることが判断された場合は、操作に気を取られていると考えられるため、発話のタイミングが前後した場合であっても、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部１０で補正された音声認識スコアが付された語彙は、スコア足切り判定部１１に送られる。

次に、上記のように構成される、この発明の実施の形態８に係る音声認識装置の動作を、図１６に示すシーケンス図を参照しながら説明する。なお、図１６においては、訂正キー１４の動作は省略してある。

音声認識部２から認識結果を受け取った音声認識スコア補正部１０は、発話タイミング判定部５から送られてくる発話タイミングと、車内機器操作状況収集部１７から送られてくる車内機器の操作状況を表すデータとに応じて、音声認識部２から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部１１に送る。以後の動作は、実施の形態２に係る音声認識装置の動作と同じである。

以上説明したように、この発明の実施の形態８に係る音声認識装置によれば、車内機器の操作状況、例えばウインドウまたはドアの開閉、エアコンの制御、走行状況などを考慮した認識結果または応答ガイダンスなどをユーザに提示できる。

なお、この実施の形態８に係る音声認識装置では、実施の形態５に係る音声認識装置に、車内機器操作状況収集部１７を追加するように構成したが、実施の形態２〜実施の形態４のいずれか１つに係る音声認識装置に、車内機器操作状況収集部１７を追加するように構成することもできる。この場合も、上述した実施の形態８に係る音声認識装置と同様の作用および効果を奏する。

以上のように、この発明に係る音声認識装置は、適切なテロップおよびシステム応答を出力するため、発話タイミングに応じた内容のシステム応答を出力するように構成したので、発話による操作を可能にした車載用端末などに用いるのに適している。

Claims

音声認識の開始を指示する音声開始指示部と、
発話された音声を入力して音声信号に変換する音声入力部と、
前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
前記発話開始時間検出部で検出された時間と所定の閾値とを比較することにより発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
前記音声認識部で認識された語彙の音声認識スコアを、前記発話タイミング判定部で判定された発話タイミングに応じて補正する音声認識スコア補正部と、
前記音声認識スコア補正部で補正された音声認識スコアに応じて、認識結果の提示の是非を判定するスコア足切り判定部と、
前記スコア足切り判定部における判定結果に応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
前記システム応答生成部で生成されたシステム応答を出力する出力部
とを備えた音声認識装置。
音声認識の開始を指示する音声開始指示部と、
発話された音声を入力して音声信号に変換する音声入力部と、
前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
前記発話開始時間検出部において過去の複数回の試行で検出された時間に基づき、分散を考慮して発話タイミング判定用閾値を算出する分散考慮発話タイミング学習部と、
前記分散考慮発話タイミング学習部で算出された発話タイミング判定用閾値を所定の閾値として前記発話開始時間検出部で検出された時間と比較することにより、発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
前記発話タイミング判定部で判定された発話タイミングに応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
前記システム応答生成部で生成されたシステム応答を出力する出力部と、
前記音声認識部による認識結果のキャンセルを指示する訂正キーとを備え、
前記分散考慮発話タイミング学習部は、前記発話開始時間検出部において過去の複数回の試行で検出された時間と、前記出力部からシステム応答が出力されてから前記訂正キーによってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮した発話タイミング判定用閾値を算出することを特徴とする音声認識装置。
走行状況を検出する走行状況検出部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記走行状況検出部で検出された走行状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項１記載の音声認識装置。
運転操作の状況を検出する運転操作検出部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記運転操作検出部で検出された運転操作の状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項１記載の音声認識装置。
走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置から成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記測位検出装置から出力される位置情報に基づき判断された走行状況または運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項３記載の音声認識装置。
走行状況検出部は、加速度を検出する加速度検出装置から成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記加速度検出装置で検出された加速度に基づき判断された走行状況および運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項３記載の音声認識装置。
走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置と加速度を検出する加速度検出装置とから成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミング、前記測位検出装置から出力される位置情報に基づき判断された走行状況および前記加速度検出装置で検出された加速度に基づき判断された運転操作状況に応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項３記載の音声認識装置。
車載ネットワークを介して車内機器の操作状況を収集する車内機器操作状況収集部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記車内機器操作状況収集部で収集された車内機器の操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項１記載の音声認識装置。