JP4859982B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4859982B2
JP4859982B2 JP2009521505A JP2009521505A JP4859982B2 JP 4859982 B2 JP4859982 B2 JP 4859982B2 JP 2009521505 A JP2009521505 A JP 2009521505A JP 2009521505 A JP2009521505 A JP 2009521505A JP 4859982 B2 JP4859982 B2 JP 4859982B2
Authority
JP
Japan
Prior art keywords
unit
voice
utterance
speech recognition
utterance timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009521505A
Other languages
English (en)
Other versions
JPWO2009004750A1 (ja
Inventor
譲 井上
鈴木  忠
史尚 佐藤
尚嘉 竹裏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009521505A priority Critical patent/JP4859982B2/ja
Publication of JPWO2009004750A1 publication Critical patent/JPWO2009004750A1/ja
Application granted granted Critical
Publication of JP4859982B2 publication Critical patent/JP4859982B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、車両に搭載されて、ユーザが発話した音声を認識する音声認識装置に関する。
従来、音声を用いてシステムとユーザとの間で対話を行う音声対話システムが知られている(例えば、特許文献1参照)。この音声対話システムは、ユーザに対してシステム側音声を出力するスピーカと、スピーカから出力されたシステム側音声に従ってユーザが発した音声を音声信号に変換するマイクロフォンと、マイクロフォンへ入力された音声を音声認識する音声認識部と、音声をマイクロフォンにより変換した音声信号および応答生成部からの応答音声信号に基づいて発声タイミングを検出する発声タイミング検出部と、発声タイミングを用いてユーザの音声対話の習熟度を判定する習熟度判定部と、習熟度判定部で判定された習熟度に応じてシステム側音声の出力内容を変更する音声出力変更部とを備えている。
一般に、音声認識装置においては、音声認識は、ユーザが発話した音声の音響的特徴のみに左右され、例えば、ユーザによる認識開始ボタンの押下等によってシステムが認識可能状態に遷移してから、実際に発話が開始されるまでの時間(以下、「発話タイミング」という)は認識結果に影響を及ぼさない。
特開2004−333543号公報
上述した特許文献1に開示された音声対話システムは、発話タイミング、使用回数および発話速度などに基づき音声対話の習熟度を判定し、この習熟度を考慮して音声認識を行うように構成されている。しかしながら、習熟度は、システム側音声(ガイダンス音声)の出力変更にのみ適応され、認識結果に直接影響を及ぼさない。したがって、ユーザの発話タイミングによっては誤認識が発生するという問題がある。
本発明は、上述した問題を解消するためになされたものであり、その課題は、ユーザの発話タイミングに応じて、音声認識の結果に対する適切な情報をユーザに提示できる車載用の音声認識装置を提供することにある。
この発明に係る音声認識装置は、上記課題を解決するために、音声認識の開始を指示する音声開始指示部と、発話された音声を入力して音声信号に変換する音声入力部と、音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、音声開始指示部により音声認識の開始が指示されてから、音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、発話開始時間検出部で検出された時間と所定の閾値とを比較することにより発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、音声認識部で認識された語彙の音声認識スコアを、発話タイミング判定部で判定された発話タイミングに応じて補正する音声認識スコア補正部と、音声認識スコア補正部で補正された音声認識スコアに応じて、認識結果の提示の是非を判定するスコア足切り判定部と、スコア足切り判定部における判定結果に応じて、音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、システム応答生成部で生成されたシステム応答を出力する出力部とを備えている。
この発明に係る音声認識装置によれば、発話タイミングに応じた内容のシステム応答を出力するように構成したので、適切なテロップおよび応答ガイダンスをユーザに提示することができる。その結果、ユーザは、快適かつ適切な操作を行うことができ、誤認識がなされた際の不快感を軽減できる。また、ユーザの発話タイミングに応じて認識結果を補正することが可能となるので、誤認識の可能性が高い認識結果はユーザに提示しないように構成できる。その結果、ユーザが意図しない語彙が認識されるのを抑制できる。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態1に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態2に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態3に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態3に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態4に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態5に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態6に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態6に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態7に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態7に係る音声認識装置の動作を示すシーケンス図である。 この発明の実施の形態8に係る音声認識装置の構成を示すブロック図である。 この発明の実施の形態8に係る音声認識装置の動作を示すシーケンス図である。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力部1、音声認識部2、音声開始指示部3、発話開始時間検出部4、発話タイミング判定部5、対話制御部6、システム応答生成部7、音声出力部8およびテロップ出力部9を備えている。
音声入力部1は、例えばマイクロフォンから構成されており、ユーザが発話した音声を入力して電気信号に変換し、音声信号として音声認識部2および発話開始時間検出部4に送る。
音声認識部2は、音声入力部1から送られてくる音声信号を処理することにより、ユーザが発話した音声を認識する。より詳しくは、音声認識部2は、音声入力部1から送られてくる音声信号からユーザの発話を検出する音声区間検出と、音声区間検出で得られた音声信号をパラメータ表現に変換する音響分析と、音響分析で得られた音声の最小単位を基に最尤度の音素候補を選び出して識別する確率演算と、確率演算で得られた音素と単語などを記憶した辞書とを比較して認識結果を決定する照合とを順次に実行して音声を認識する。
音響分析においては、例えばLPCメルケプストラム(Linear Predictor Coefficient)またはMFCC(Mel Frequency Cepstrum Coefficient)などを利用して、音声入力部1から送られてくる音声信号が特徴ベクトル系列に変換され、音声スペクトルの概形(スペクトル包絡)が推定される。確率演算においては、例えばHMM(Hidden Markov Model)などを利用して、入力された音声を基に音響分析で抽出された音響パラメータを用いて音声信号の音素記号化が行われ、予め用意された標準音素モデルと比較されて最尤度の音素候補が選び出される。照合処理においては、音素候補を基にして辞書と比較され、尤度の高い単語が選択される。以上のようにして音声認識部2において認識された語彙は、対話制御部6に送られる。
音声開始指示部3は、例えば画面上に形成された、または、操作部(図示しない)に設けられた認識開始ボタンなどから構成されている。この音声開始指示部3によって音声認識の開始が指示されると、その旨を表す音声認識開始信号が開始開示時間検出部4に送られる。音声認識装置は、この音声開始指示部3からの音声認識開始信号をトリガー(以下、「音声開始トリガー」という)として、認識可能状態に遷移する。
発話開始時間検出部4は、音声認識可能状態に遷移してから、つまり、音声開始指示部3から音声認識開始信号を受け取ってから、実際にユーザの発話が開始されるまで、つまり音声入力部1から音声信号が入力されるまでの時間を検出する。この発話開始時間検出部4で検出された時間は、発話開始時間として発話タイミング判定部5に送られる。
発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間に基づき、発話タイミングを判定する。より詳しくは、発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間が所定の閾値以下である場合は、発話タイミングが「早い」と判定し、所定の閾値より大きい場合は、発話タイミングが「遅い」と判定する。この発話タイミング判定部5において判定された発話タイミングは、対話制御部6に送られる。
対話制御部6は、発話タイミング判定部5から送られてくる発話タイミングに応じて、ユーザへの提示内容を決定する。具体的には、対話制御部6は、音声認識部2から送られてくる語彙をユーザに提示する際のシステム応答(テロップおよび応答ガイダンス)を決定するが、この際、発話タイミング判定部5で判定された発話タイミング(早い/遅い)によってシステム応答の内容を変更する。例えば、発話タイミングが早い場合は、発話者が慌てて発話したものと判断し、発話タイミングが遅い場合は、発話者が悩んで発話したものと判断し、いずれの場合も誤った語彙が認識されている可能性があるため、「○○(認識語彙)でよろしいですか?」などといった確認のガイダンスを生成する。この対話制御部6で生成された確認のガイダンスは、システム応答の生成要求とともにシステム応答生成部7に送られる。
システム応答生成部7は、対話制御部6から送られてくるシステム応答の生成要求に応答して、同時に送られてくる確認のガイダンスに応じたシステム応答(テロップおよび応答ガイダンス)を生成する。このシステム応答生成部7で生成されたシステム応答は、音声出力部8およびテロップ出力部9に送られる。
音声出力部8は、例えばスピーカから構成されており、この発明の出力部の一部に対応する。この音声出力部8は、システム応答生成部7から送られてくるシステム応答に含まれる応答ガイダンスを音声で出力する。
テロップ出力部9は、例えば液晶ディスプレイ装置といった表示装置から構成されており、この発明の出力部の他の一部に対応する。このテロップ出力部9は、システム応答生成部7から送られてくるシステム応答に含まれるテロップを表示する。
次に、上記のように構成される、この発明の実施の形態1に係る音声認識装置の動作を、図2に示すシーケンス図を参照しながら説明する。
まず、ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られる。これにより、発話開始時間検出部4は、時間の計測を開始する。次いで、ユーザが発話すると、その音声が音声入力部1で電気信号に変換され、音声信号として音声認識部2および発話開始時間検出部4に送られる。音声入力部1からの音声信号を受け取った発話開始時間検出部4は、時間の計測を停止し、音声開始指示部3から音声開始トリガーを受け取ってから、音声入力部1から音声信号が入力されるまでの時間を検出し、発話開始時間として発話タイミング判定部5に送る。発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間に基づき発話タイミング(早い/遅い)を判定し、その判定結果を、タイミング判定結果として対話制御部6に送る。
一方、音声入力部1からの音声信号を受け取った音声認識部2は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果として得られた語彙を対話制御部6に送る。対話制御部6は、音声認識部2から送られてくる語彙をユーザに提示する際のシステム応答(テロップおよび応答ガイダンス)を決定し、この決定したシステム応答の内容を、発話タイミング判定部5から送られてくる発話タイミング(早い/遅い)に応じて変更し、確認のガイダンスとして、システム応答の生成要求とともにシステム応答生成部7に送る。
システム応答生成部7は、対話制御部6から送られてくるシステム応答の生成要求に応答して、同時に送られてくる確認のガイダンスに応じたシステム応答(テロップおよび応答ガイダンス)を生成し、音声出力部8およびテロップ出力部9に送る。これにより、音声出力部8からは、システム応答生成部7から送られてくる応答ガイダンスが音声で出力されるとともに、テロップ出力部9には、システム応答生成部7から送られてくるテロップが表示され、ユーザに提示される。
以上説明したように、この発明の実施の形態1に係る音声認識装置によれば、ユーザの発話タイミングに応じてシステム応答(テロップおよび応答ガイダンス)を変更することができる。したがって、音声認識装置は、適切なテロップおよび応答ガイダンスをユーザに提示することができるので、ユーザは、快適かつ適切な操作を行うことができ、誤認識がなされた際の不快感を軽減できる。
実施の形態2.
図3は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態1に係る音声認識装置に、音声認識スコア補正部10およびスコア足切り判定部11が追加されて構成されている。以下においては、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態1に係る音声認識装置と異なる部分を中心に説明する。
実施の形態2に係る音声認識装置においては、音声認識部2は、認識した語彙を、その語彙の音声認識スコアとともに音声認識スコア補正部10に送る。また、発話タイミング判定部5は、判定した発話タイミングを音声認識スコア補正部10に送る。
音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正する。ここで、音声認識スコアは、認識結果の尤度を表す情報である。例えば、発話タイミングが早い場合は、発話者が慌てて発話したものと判断し、発話タイミングが遅い場合は、発話者が悩んで発話したものと判断し、いずれの場合も誤った語彙が認識されている可能性があるため、音声認識スコア補正部10は、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部10で補正された音声認識スコアを有する語彙は、スコア足切り判定部11に送られる。
スコア足切り判定部11は、音声認識スコア補正部10から送られてくる語彙の音声認識スコアに応じて、ユーザに対する認識結果(語彙)の提示の是非を判定する。具体的には、スコア足切り判定部11は、音声認識スコア補正部10から送られてきた語彙の音声認識スコアが所定の閾値以上であるかどうかを調べ、所定の閾値以上であれば、その語彙を対話制御部6に送り、所定の閾値より小さければ、その語彙を対話制御部6に送らない。
対話制御部6は、音声認識部2から語彙が送られてきた場合に、その語彙をユーザに提示する際のシステム応答を決定し、ガイダンスを生成する。この対話制御部6で生成されたガイダンスは、システム応答の生成要求とともにシステム応答生成部7に送られる。
次に、上記のように構成される、この発明の実施の形態2に係る音声認識装置の動作を、図4に示すシーケンス図を参照しながら説明する。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話タイミング判定部5から発話タイミング(早い/遅い)が出力されるまでの動作、および、音声入力部1からの音声信号を受け取った音声認識部2が、認識結果を出力するまでの動作は、上述した実施の形態1に係る音声認識装置の動作と同じである。発話タイミング判定部5から出力される発話タイミングは音声認識スコア補正部10に送られ、音声認識部2から出力される認識結果は、音声認識スコア補正部10に送られる。
音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正し、スコア補正結果をスコア足切り判定部11に送る。スコア足切り判定部11は、音声認識スコア補正部10から送られてくる語彙の音声認識スコアが所定の閾値以上であるかどうかを調べ、所定の閾値以上であれば、その語彙を対話制御部6に送り、所定の閾値より小さければ、その語彙を対話制御部6に送らない。
対話制御部6は、スコア足切り判定部11から語彙が送られてきた場合に、その語彙をユーザに提示する際のシステム応答(テロップおよび応答ガイダンス)を決定し、この決定したシステム応答の内容を、ガイダンスとして、システム応答の生成要求とともにシステム応答生成部7に送る。システム応答生成部7は、対話制御部6から送られてくるシステム応答の生成要求に応答して、ガイダンスに応じたシステム応答(テロップおよび応答ガイダンス)を生成し、音声出力部8およびテロップ出力部9に送る。これにより、音声出力部8は、システム応答生成部7から送られてくる応答ガイダンスを音声で出力するとともに、テロップ出力部9は、システム応答生成部7から送られてくるテロップを表示し、ユーザに提示する。
以上説明したように、この発明の実施の形態2に係る音声認識装置によれば、ユーザの発話タイミングに応じて認識結果を補正することが可能となるので、誤認識の可能性が高い認識結果はユーザに提示しないように構成できる。その結果、ユーザが意図しない語彙が認識されるのを抑制できる。
実施の形態3.
図5は、この発明の実施の形態3に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態2に係る音声認識装置に、発話タイミング学習部12が追加されて構成されている。以下においては、実施の形態2に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態2に係る音声認識装置と異なる部分を中心に説明する。
実施の形態3に係る音声認識装置においては、発話開始時間検出部4は、検出した発話開始時間を発話タイミング判定部5に送るとともに、発話タイミング学習部12にも送る。
発話タイミング学習部12は、発話開始時間検出部4から送られてくる発話開始時間に基づき、発話タイミングを学習する。具体的には、発話タイミング学習部12は、発話開始時間検出部4から送られてくる発話開始時間を順次記憶している。そして、発話開始時間検出部4から新たな発話開始時間が送られてきた場合に、過去の複数回の試行で検出された発話開始時間を試行回数で除算することにより発話開始時間の平均値を算出し、平均発話タイミングとして発話タイミング判定部5に送る。
発話タイミング判定部5は、発話タイミング学習部12から送られてくる平均発話タイミングを所定の閾値として用い、発話開始時間検出部4から送られてくる発話開始時間が所定の閾値以下である場合は、発話タイミングが「早い」と判定し、所定の閾値より大きい場合は、発話タイミングが「遅い」と判定する。そして、この判定した発話タイミングを、対話制御部6に送る。
次に、上記のように構成される、この発明の実施の形態3に係る音声認識装置の動作を、図6に示すシーケンス図を参照しながら説明する。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話開始時間検出部4から発話開始時間が出力されるまでの動作は、上述した実施の形態2に係る音声認識装置の動作と同じである。発話開始時間検出部4から出力された発話開始時間は、発話タイミング判定部5および発話タイミング学習部12に送られる。
発話タイミング学習部12は、発話開始時間検出部4から送られてくる発話開始時間に基づき平均発話タイミングを算出し、発話タイミング判定部5に送る。発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間を発話タイミング学習部12から送られてくる平均発話タイミングと比較することにより発話タイミング(早い/遅い)を判定し、その判定結果を音声認識スコア補正部10に送る。一方、音声入力部1からの音声信号を受け取った音声認識部2は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部10に送る。以後の動作は、実施の形態2に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態3に係る音声認識装置によれば、発話タイミング判定部12で使用する閾値を動的に変化させることができるので、発話タイミングの個人差を吸収できる。
なお、この実施の形態3に係る音声認識装置では、実施の形態2に係る音声認識装置に、発話タイミング学習部12を追加するように構成したが、実施の形態1に係る音声認識装置に、発話タイミング学習部12を追加するように構成することもできる。この場合も、上述した実施の形態3に係る音声認識装置と同様の作用および効果を奏する。
実施の形態4.
図7は、この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態3に係る音声認識装置における発話タイミング学習部12が分散考慮発話タイミング学習部13に変更されて構成されている。以下においては、実施の形態3に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態3で使用した符号と同一の符号を付して説明を省略し、実施の形態3に係る音声認識装置と異なる部分を中心に説明する。
分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間に基づき、分散を考慮して発話タイミングを学習する。より詳しくは、分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間に基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部5に送る。例えば、ユーザAおよびユーザBの過去5回の発話開始時間が以下のとおりであったとする。
<ユーザA>
1回目;6[s]
2回目;7[s]
3回目;7[s]
4回目;7[s]
5回目;8[s]
発話開始平均時間;[s]7
分散値;0.5
<ユーザB>
1回目;15[s]
2回目;3[s]
3回目;6[s]
4回目;4[s]
5回目;7[s]
発話開始平均時間;[s]7
分散値;21
ユーザAは、平均値から各データの距離が小さいため分散値は小さくなる。一方、ユーザBは、平均値から各データの距離が大きいため分散値は大きくなる。発話タイミング判定部5で使用される所定の閾値を、発話開始平均時間から1[s]だけずらすことの意味は、ユーザAとユーザBとで大きく異なる。すなわち、ユーザAの場合は影響が大きく、ユーザBの場合は影響が小さい。したがって、発話タイミング判定部5で使用される閾値を動的に変更する場合、分散値の大小を考慮して閾値を変化させる必要がある。
次に、上記のように構成される、この発明の実施の形態4に係る音声認識装置の動作を、図8に示すシーケンス図を参照しながら説明する。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話開始時間検出部4から発話開始時間が出力されるまでの動作は、上述した実施の形態2に係る音声認識装置の動作と同じである。発話開始時間検出部4から出力された発話開始時間は、発話タイミング判定部5および分散考慮発話タイミング学習部13に送られる。
分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間に基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部5に送る。発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間を分散考慮発話タイミング学習部13から送られてくる発話タイミング判定用閾値と比較することにより発話タイミング(早い/遅い)を判定し、その判定結果を音声認識スコア補正部10に送る。一方、音声入力部1からの音声信号を受け取った音声認識部2は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部10に送る。以後の動作は、実施の形態3に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態4に係る音声認識装置によれば、ユーザによる発話の分散を踏まえて発話タイミング判定部5で使用する閾値を動的に変化させることができるので、ユーザの発話タイミングの揺らぎを吸収できる。
なお、この実施の形態4に係る音声認識装置では、実施の形態2に係る音声認識装置に、分散考慮発話タイミング学習部13を追加するように構成したが、実施の形態1に係る音声認識装置に、分散考慮発話タイミング学習部12を追加するように構成することもできる。この場合も、上述した実施の形態4に係る音声認識装置と同様の作用および効果を奏する。
実施の形態5.
図9は、この発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態4に係る音声認識装置に、訂正キー14が追加されるとともに、分散考慮発話タイミング学習部13の機能が変更されて構成されている。以下においては、実施の形態4に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態4で使用した符号と同一の符号を付して説明を省略し、実施の形態4に係る音声認識装置と異なる部分を中心に説明する。
訂正キー14は、例えば画面上または操作部(図示しない)に設けられており、認識結果がユーザに提示された後に、押下によって直前の認識結果のキャンセルを指示するために使用される。この訂正キー14が押された旨を表す訂正信号は分散考慮発話タイミング学習部13に送られる。
分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間と訂正キー14から送られてくる訂正信号に基づき、分散を考慮して発話タイミングを学習する。より詳しくは、分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間と、音声出力部8から応答ガイダンスが音声で出力されてから、または、テロップ出力部9にテロップが表示されてから訂正キー14によってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮した発話タイミング判定用閾値を算出する。この分散考慮発話タイミング学習部13で算出された発話タイミング判定用閾値は、発話タイミング判定部5に送られる。
次に、上記のように構成される、この発明の実施の形態5に係る音声認識装置の動作を、図10に示すシーケンス図を参照しながら説明する。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話開始時間検出部4から発話開始時間が出力されるまでの動作は、上述した実施の形態2に係る音声認識装置の動作と同じである。発話開始時間検出部4から出力された発話開始時間は、発話タイミング判定部5および発話タイミング学習部12に送られる。
一方、先に、音声出力部8から応答ガイダンスが音声で出力されるとともに、テロップ出力部9にテロップが表示されており、この状態で訂正キー14が押下されると、その旨を表す訂正信号が分散考慮発話タイミング学習部13に送られる。分散考慮発話タイミング学習部13は、発話開始時間検出部4から送られてくる発話開始時間と、音声出力部8から応答ガイダンスが音声で出力されてから、または、テロップ出力部9にテロップが表示されてから訂正キー14によってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮して発話タイミング判定用閾値を算出し、発話タイミング判定部5に送る。
発話タイミング判定部5は、発話開始時間検出部4から送られてくる発話開始時間を分散考慮発話タイミング学習部13から送られてくる発話タイミング判定用閾値と比較することにより発話タイミング(早い/遅い)を判定し、その判定結果を音声認識スコア補正部10に送る。一方、音声入力部1からの音声信号を受け取った音声認識部2は、その音声信号に基づき、ユーザが発話した音声を認識し、認識結果を音声認識スコア補正部10に送る。以後の動作は、実施の形態3に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態5に係る音声認識装置によれば、認識成否の情報と訂正キー14が押下されるまでの時間を考慮して学習が行われ、発話タイミング判定用閾値が生成されるので、発話タイミングの学習をより頑健にできる。
なお、この実施の形態5に係る音声認識装置では、実施の形態4に係る音声認識装置に、訂正キー14を追加するように構成したが、実施の形態2または実施の形態3に係る音声認識装置に、訂正キー14を追加するように構成することもできる。この場合も、上述した実施の形態5に係る音声認識装置と同様の作用および効果を奏する。
実施の形態6.
図11は、この発明の実施の形態6に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、走行状況検出部15が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
走行状況検出部15としては、カーナビゲーション装置などに備えられている、現在位置を検出するための測位検出装置を用いることができる。走行状況検出部15は、測位検出装置によって得られた位置情報に基づき走行状況を検出する。この走行状況検出部15で検出された走行状況を表すデータは、音声認識スコア補正部10に送られる。なお、走行状況検出部15は、位置情報に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部15で検出された走行状況または運転操作状況を表すデータは、音声認識スコア補正部10に送られる。
また、走行状況検出部15としては、カーナビゲーション装置などに備えられている、加速度を検出するための加速度検出装置を用いることができる。この場合、走行状況検出部15は、加速度検出装置によって得られた加速度値に基づき走行状況を検出する。この走行状況検出部15で検出された走行状況を表すデータは、音声認識スコア補正部10に送られる。なお、走行状況検出部15は、加速度値に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部15で検出された走行状況または運転操作状況を表すデータが、音声認識スコア補正部10に送られる。
さらに、走行状況検出部15としては、カーナビゲーション装置などに備えられている、現在位置を検出するための測位検出装置および加速度を検出するための加速度検出装置の両方を用いることができる。走行状況検出部15は、測位検出装置によって得られた位置情報および加速度検出装置によって得られた加速度値に基づき走行状況を検出する。この走行状況検出部15で検出された走行状況を表すデータは、音声認識スコア補正部10に送られる。なお、走行状況検出部15は、位置情報および加速度値に基づき検出された走行状況の他に運転操作状況を検出するように構成することもできる。この場合、走行状況検出部15で検出された走行状況または運転操作状況を表すデータは、音声認識スコア補正部10に送られる。
音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと走行状況検出部15から送られてくる走行状況を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正する。例えば、走行状況を表すデータによって高速道路を走行中であることを判断すると、ハンドル操作またはペダル操作が少ないと考えられるため、発話のタイミングが前後した場合は、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部10で補正された音声認識スコアが付された語彙は、スコア足切り判定部11に送られる。
次に、上記のように構成される、この発明の実施の形態6に係る音声認識装置の動作を、図12に示すシーケンス図を参照しながら説明する。なお、図12においては、訂正キー14の動作は省略してある。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話タイミング判定部5から発話タイミング(早い/遅い)が音声認識スコア補正部10に送られるまでの動作、および、音声入力部1からの音声信号を受け取った音声認識部2が、認識結果を音声認識スコア補正部10に送る動作は、上述した実施の形態5に係る音声認識装置の動作と同じである。
音声認識部2から認識結果を受け取った音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと、走行状況検出部15から送られてくる走行状況を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部11に送る。以後の動作は、実施の形態2に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態6に係る音声認識装置によれば、例えば現在位置などの走行状況を検出し、発話タイミングのずれが走行状況によるものか否かを判断できるので、走行状況を考慮した認識結果または応答ガイダンスなどをユーザに提示できる。
なお、この実施の形態6に係る音声認識装置では、実施の形態5に係る音声認識装置に、走行状況検出部15を追加するように構成したが、実施の形態2〜実施の形態4のいずれか1つに係る音声認識装置に、走行状況検出部15を追加するように構成することもできる。この場合も、上述した実施の形態6に係る音声認識装置と同様の作用および効果を奏する。
実施の形態7.
図13は、この発明の実施の形態7に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、運転操作検出部16が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
運転操作検出部15は、車両のアクセルペダル、ブレーキペダルまたはハンドルなど(いずれも図示しない)から送られてくる信号から、現在の運転操作の状況を検出する。この運転操作検出部16で検出された運転操作を表すデータは、音声認識スコア補正部10に送られる。
音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと運転操作検出部16から送られてくる運転操作を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正する。例えば、運転操作を表すデータによってバック走行中であることを判断すると、周囲の警戒に意識を集中していると考えられるため、発話のタイミングが前後した場合であっても、音声認識スコアが小さくなるように補正しない。この音声認識スコア補正部10で補正された音声認識スコアが付された語彙は、スコア足切り判定部11に送られる。
次に、上記のように構成される、この発明の実施の形態7に係る音声認識装置の動作を、図14に示すシーケンス図を参照しながら説明する。なお、図14においては、訂正キー14の動作は省略してある。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話タイミング判定部5から発話タイミング(早い/遅い)が音声認識スコア補正部10に送られるまでの動作、および、音声入力部1からの音声信号を受け取った音声認識部2が、認識結果を音声認識スコア補正部10に送る動作は、上述した実施の形態5に係る音声認識装置の動作と同じである。
音声認識部2から認識結果を受け取った音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと、運転操作検出部16から送られてくる運転操作の状況を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部11に送る。以後の動作は、実施の形態2に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態7に係る音声認識装置によれば、例えばカーブ中などといった運転操作の状況を検出し、発話タイミングのずれが運転操作の状況によるものか否かを判断できるので、運転操作の状況を考慮した認識結果または応答ガイダンスなどをユーザに提示できる。
なお、この実施の形態7に係る音声認識装置では、実施の形態5に係る音声認識装置に、運転操作検出部16を追加するように構成したが、実施の形態2〜実施の形態4のいずれか1つに係る音声認識装置に、運転操作検出部16を追加するように構成することもできる。この場合も、上述した実施の形態7に係る音声認識装置と同様の作用および効果を奏する。
実施の形態8.
図15は、この発明の実施の形態8に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、車内機器操作状況収集部17が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
車内機器操作状況収集部17は、CAN(Controller Area Network)、MOST(Media Oriented Systems Transport)、LAN(Local Area Network)またはFlexRayなどといった車載ネットワークによって接続されたウインドウ、ドア、エアコン(エアコントローラ)、カーオーディオなどの車内機器(車載機器を含む)の操作状況を表すデータを収集する。この運転操作検出部16で検出された車内機器の操作状況を表すデータは、音声認識スコア補正部10に送られる。
音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと運転操作検出部16から送られてくる車内機器の操作状況を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正する。例えば、エアコン操作中あることが判断された場合は、操作に気を取られていると考えられるため、発話のタイミングが前後した場合であっても、音声認識スコアが小さくなるように補正する。この音声認識スコア補正部10で補正された音声認識スコアが付された語彙は、スコア足切り判定部11に送られる。
次に、上記のように構成される、この発明の実施の形態8に係る音声認識装置の動作を、図16に示すシーケンス図を参照しながら説明する。なお、図16においては、訂正キー14の動作は省略してある。
ユーザが音声開始指示部3を操作することにより、音声開始トリガーが発話開始時間検出部4に送られてから、発話タイミング判定部5から発話タイミング(早い/遅い)が音声認識スコア補正部10に送られるまでの動作、および、音声入力部1からの音声信号を受け取った音声認識部2が、認識結果を音声認識スコア補正部10に送る動作は、上述した実施の形態5に係る音声認識装置の動作と同じである。
音声認識部2から認識結果を受け取った音声認識スコア補正部10は、発話タイミング判定部5から送られてくる発話タイミングと、車内機器操作状況収集部17から送られてくる車内機器の操作状況を表すデータとに応じて、音声認識部2から送られてくる語彙の音声認識スコアを補正し、音声認識スコアを語彙に付してスコア足切り判定部11に送る。以後の動作は、実施の形態2に係る音声認識装置の動作と同じである。
以上説明したように、この発明の実施の形態8に係る音声認識装置によれば、車内機器の操作状況、例えばウインドウまたはドアの開閉、エアコンの制御、走行状況などを考慮した認識結果または応答ガイダンスなどをユーザに提示できる。
なお、この実施の形態8に係る音声認識装置では、実施の形態5に係る音声認識装置に、車内機器操作状況収集部17を追加するように構成したが、実施の形態2〜実施の形態4のいずれか1つに係る音声認識装置に、車内機器操作状況収集部17を追加するように構成することもできる。この場合も、上述した実施の形態8に係る音声認識装置と同様の作用および効果を奏する。
以上のように、この発明に係る音声認識装置は、適切なテロップおよびシステム応答を出力するため、発話タイミングに応じた内容のシステム応答を出力するように構成したので、発話による操作を可能にした車載用端末などに用いるのに適している。

Claims (8)

  1. 音声認識の開始を指示する音声開始指示部と、
    発話された音声を入力して音声信号に変換する音声入力部と、
    前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
    前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
    前記発話開始時間検出部で検出された時間と所定の閾値とを比較することにより発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
    前記音声認識部で認識された語彙の音声認識スコアを、前記発話タイミング判定部で判定された発話タイミングに応じて補正する音声認識スコア補正部と、
    前記音声認識スコア補正部で補正された音声認識スコアに応じて、認識結果の提示の是非を判定するスコア足切り判定部と、
    前記スコア足切り判定部における判定結果に応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
    前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
    前記システム応答生成部で生成されたシステム応答を出力する出力部
    とを備えた音声認識装置。
  2. 音声認識の開始を指示する音声開始指示部と、
    発話された音声を入力して音声信号に変換する音声入力部と、
    前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
    前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
    前記発話開始時間検出部において過去の複数回の試行で検出された時間に基づき、分散を考慮して発話タイミング判定用閾値を算出する分散考慮発話タイミング学習部と、
    前記分散考慮発話タイミング学習部で算出された発話タイミング判定用閾値を所定の閾値として前記発話開始時間検出部で検出された時間と比較することにより、発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
    前記発話タイミング判定部で判定された発話タイミングに応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
    前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
    前記システム応答生成部で生成されたシステム応答を出力する出力部と、
    前記音声認識部による認識結果のキャンセルを指示する訂正キーとを備え、
    前記分散考慮発話タイミング学習部は、前記発話開始時間検出部において過去の複数回の試行で検出された時間と、前記出力部からシステム応答が出力されてから前記訂正キーによってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮した発話タイミング判定用閾値を算出することを特徴とする音声認識装置。
  3. 走行状況を検出する走行状況検出部を備え、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記走行状況検出部で検出された走行状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
  4. 運転操作の状況を検出する運転操作検出部を備え、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記運転操作検出部で検出された運転操作の状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
  5. 走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置から成り、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記測位検出装置から出力される位置情報に基づき判断された走行状況または運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
  6. 走行状況検出部は、加速度を検出する加速度検出装置から成り、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記加速度検出装置で検出された加速度に基づき判断された走行状況および運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
  7. 走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置と加速度を検出する加速度検出装置とから成り、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミング、前記測位検出装置から出力される位置情報に基づき判断された走行状況および前記加速度検出装置で検出された加速度に基づき判断された運転操作状況に応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
  8. 車載ネットワークを介して車内機器の操作状況を収集する車内機器操作状況収集部を備え、
    音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記車内機器操作状況収集部で収集された車内機器の操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
    ことを特徴とする請求項記載の音声認識装置。
JP2009521505A 2007-07-02 2008-03-27 音声認識装置 Expired - Fee Related JP4859982B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009521505A JP4859982B2 (ja) 2007-07-02 2008-03-27 音声認識装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007174386 2007-07-02
JP2007174386 2007-07-02
JP2009521505A JP4859982B2 (ja) 2007-07-02 2008-03-27 音声認識装置
PCT/JP2008/000772 WO2009004750A1 (ja) 2007-07-02 2008-03-27 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2009004750A1 JPWO2009004750A1 (ja) 2010-08-26
JP4859982B2 true JP4859982B2 (ja) 2012-01-25

Family

ID=40225818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009521505A Expired - Fee Related JP4859982B2 (ja) 2007-07-02 2008-03-27 音声認識装置

Country Status (5)

Country Link
US (1) US8407051B2 (ja)
JP (1) JP4859982B2 (ja)
CN (1) CN101689366B (ja)
DE (1) DE112008001334B4 (ja)
WO (1) WO2009004750A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5281659B2 (ja) * 2009-01-20 2013-09-04 旭化成株式会社 音声対話装置、対話制御方法及び対話制御プログラム
JP5375423B2 (ja) * 2009-08-10 2013-12-25 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
JP2013529794A (ja) 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
KR20140089871A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
JP6389171B2 (ja) * 2013-06-19 2018-09-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び機器
US9953644B2 (en) 2014-12-01 2018-04-24 At&T Intellectual Property I, L.P. Targeted clarification questions in speech recognition with concept presence score and concept correctness score
KR102420450B1 (ko) 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
CN106027588A (zh) * 2015-12-09 2016-10-12 展视网(北京)科技有限公司 一种语音识别车载终端控制方法
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP2019200393A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
JP6936772B2 (ja) * 2018-06-04 2021-09-22 株式会社ホンダアクセス 情報提供装置
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
WO2022215104A1 (ja) * 2021-04-05 2022-10-13 三菱電機株式会社 音声対話装置および音声対話方法
DE102022112743B4 (de) 2022-05-20 2024-02-01 Audi Aktiengesellschaft Verfahren zur Verbesserung der Qualität einer Audio- und/oder Videoaufzeichnung sowie Steuervorrichtung für ein mobiles Endgerät

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0518118B2 (ja) * 1984-05-24 1993-03-11 Tokyo Shibaura Electric Co
JP2002149191A (ja) * 2000-11-09 2002-05-24 Toyota Central Res & Dev Lab Inc 音声入力装置
JP2003029778A (ja) * 2001-07-16 2003-01-31 Fujitsu Ten Ltd ナビゲーションシステムにおける音声対話インターフェース処理方法
JP2006313261A (ja) * 2005-05-09 2006-11-16 Mitsubishi Electric Corp 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007004054A (ja) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd 音声対話装置及び音声理解結果生成方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
DE19941227A1 (de) * 1999-08-30 2001-03-08 Philips Corp Intellectual Pty Verfahren und Anordnung zur Spracherkennung
DE19956747C1 (de) 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2003091299A (ja) * 2001-07-13 2003-03-28 Honda Motor Co Ltd 車載用音声認識装置
GB0224806D0 (en) * 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
JP2004239963A (ja) 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2004333543A (ja) 2003-04-30 2004-11-25 Matsushita Electric Ind Co Ltd 音声対話システム及び音声対話方法
US7724889B2 (en) * 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
JP4846735B2 (ja) 2005-12-14 2011-12-28 三菱電機株式会社 音声認識装置
JP5018118B2 (ja) 2007-02-15 2012-09-05 コニカミノルタビジネステクノロジーズ株式会社 文書管理装置、文書管理方法及び文書管理プログラム
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0518118B2 (ja) * 1984-05-24 1993-03-11 Tokyo Shibaura Electric Co
JP2002149191A (ja) * 2000-11-09 2002-05-24 Toyota Central Res & Dev Lab Inc 音声入力装置
JP2003029778A (ja) * 2001-07-16 2003-01-31 Fujitsu Ten Ltd ナビゲーションシステムにおける音声対話インターフェース処理方法
JP2006313261A (ja) * 2005-05-09 2006-11-16 Mitsubishi Electric Corp 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007004054A (ja) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd 音声対話装置及び音声理解結果生成方法

Also Published As

Publication number Publication date
WO2009004750A1 (ja) 2009-01-08
JPWO2009004750A1 (ja) 2010-08-26
US8407051B2 (en) 2013-03-26
US20110208525A1 (en) 2011-08-25
CN101689366A (zh) 2010-03-31
CN101689366B (zh) 2011-12-07
DE112008001334B4 (de) 2016-12-15
DE112008001334T5 (de) 2010-05-12

Similar Documents

Publication Publication Date Title
JP4859982B2 (ja) 音声認識装置
CN106796786B (zh) 语音识别***
US8005673B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
JP6654611B2 (ja) 成長型対話装置
WO2012137263A1 (ja) 音声認識装置およびナビゲーション装置
JP5677650B2 (ja) 音声認識装置
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2002041085A (ja) 音声認識装置及び記録媒体
US20230315997A9 (en) Dialogue system, a vehicle having the same, and a method of controlling a dialogue system
JP5181533B2 (ja) 音声対話装置
JP4604377B2 (ja) 音声認識装置
JP2008076811A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
JP3384165B2 (ja) 音声認識装置
JP4938719B2 (ja) 車載情報システム
JP2004301875A (ja) 音声認識装置
JP5157596B2 (ja) 音声認識装置
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP2003330488A (ja) 音声認識装置
JP2021033929A (ja) 制御システム、及び制御方法
JP7274376B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP7274901B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111101

R150 Certificate of patent or registration of utility model

Ref document number: 4859982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees