JP2005084590A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2005084590A
JP2005084590A JP2003319410A JP2003319410A JP2005084590A JP 2005084590 A JP2005084590 A JP 2005084590A JP 2003319410 A JP2003319410 A JP 2003319410A JP 2003319410 A JP2003319410 A JP 2003319410A JP 2005084590 A JP2005084590 A JP 2005084590A
Authority
JP
Japan
Prior art keywords
speech
utterance
proficiency level
voice
pressing pressure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003319410A
Other languages
English (en)
Inventor
Satoshi Mashita
敏 真下
Hiroshi Saito
浩 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2003319410A priority Critical patent/JP2005084590A/ja
Publication of JP2005084590A publication Critical patent/JP2005084590A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)
  • Traffic Control Systems (AREA)

Abstract

【課題】
入力された音声に対して誤認識が発生した時の発話者の対応を観測することにより、音声入力に対する習熟度を評価することを特徴とした音声入力装置を提供すること。
【解決手段】
誤認識発生による再発話時には、スイッチ押下圧の履歴と発話口調、発話音圧、発話内容といった発話情報が誤認識対応履歴管理部110に記憶される。誤認識対応履歴管理部110の記憶内容は、スイッチ押下圧および発話口調、発話音圧、発話内容を元に習熟度判定部111によって分析され、発話者の習熟度の判定が行われる。
【選択図】 図1

Description

本発明は、車両に搭載されたナビゲーションシステム、オーディオシステム、ハンズフリー電話システム等の情報機器を、音声によって操作するための音声認識装置に関する。
音声入力を利用した車載用ナビゲーション装置は特許文献1によって知られている。このナビゲーション装置においては、検索したい住所を入力装置に向けて発話することにより、ナビゲーション装置が住所を認識し、当該住所地点を目的地として検索できることができる。
また、音声入力を利用した車載用ナビゲーション装置において、発話者の話し方によって音声入力の習熟度を判定し、発話者が習熟しているとみなされた場合は、音声ガイドを簡略化する発明が特許文献2によって知られている。
特開平11−325946号公報 特開2001−331196号公報
しかしながら、このような話し方に基づく習熟度判定手法にあっては、発話を行う環境によって話し方に差が生じるため、信頼性に課題が残るのが現実である。例えば、自動車を運転中に音声入力を行った場合、運転負荷がかかっているため、たとえ音声入力に習熟した人であっても、言い淀んだり、不要語を発話してしまうことが考えられる。
請求項1の発明による音声認識装置は、音声入力手段を介して入力した発話者の発話内容の誤認識を検出する誤認識検出手段と、誤認識検出時に、所定時間内に再発話が行われたことを検出する再発話検出手段と、操作スイッチの押下圧を検出するスイッチ押下圧検出手段と、検出した操作スイッチの押下圧を記憶するスイッチ押下圧記憶手段と、音声入力された発話情報を解析する発話情報解析手段と、解析した発話情報を記憶する発話情報記憶手段と、記憶したスイッチ押下圧と発話情報との少なくともいずれか一つに基づいて、操作者の音声入力の習熟度を判定する習熟度判定手段とを有することを特徴とする。
本発明によれば、操作者のスイッチ押下圧および発話情報の少なくともいずれか一つによって習熟度を検出することにより、習熟度検出の信頼性を向上することができる。
図1は、本発明による音声認識装置の一実施の形態を搭載するカーナビゲーションシステムのブロック図である。ナビゲーションシステム100は、操作者の発話を入力するマイク101と、音声入力の開始、キャンセルを指示するための操作スイッチ102と、操作スイッチ102の押下圧を計測する圧力センサ115と、入力された音声信号を分析し内容を認識する音声認識処理部106とを有する。マイク101は車両のルームミラー近傍、あるいはステアリングコラム等、ドライバーの口元に接近した位置に設置される。また、操作スイッチ102は図2に示すように通常は車両のステアリングホイール等に設置される。ガイダンス音声やビープ音はスピーカー103から出力される。ナビゲーションシステム100はまた、ナビゲーションシステムの動作をコントロールするナビゲーションシステム制御装置112と、音声信号の認識結果や周辺地図を表示するモニタ113とを有する。
音声認識処理部106は、マイク101から入力された音声信号を一時的に記憶しておくメモリ104と、音声認識処理部106を制御するCPU105と、音声認識実行時の待ち受け単語を格納する音声認識用辞書107とを有する。CPU105は、誤認識が発生したことを検出する誤認識発生検出部108と、圧力センサ115で検出された操作スイッチ102の押下圧を記憶するスイッチ押下圧記憶部109と、マイク101から入力された発話情報(口調、音圧、内容)を解析する発話情報解析部116と、発話情報解析部116により解析された発話情報を記憶する発話情報記憶部114と、スイッチ押下圧記憶部109で記憶される操作スイッチ102の押下圧と発話情報記憶部114で記憶される発話情報の履歴を管理する誤認識対応履歴管理部110と、操作者の音声操作習熟度を判定する習熟度判定部111とを備えている。そして、誤認識対応履歴管理部110に格納されているスイッチ押下圧と発話情報に基づいて操作者の音声操作習熟度を判定する。なお、CPU105を構成する各部108、109、110、111、114、116は、CPU105のソフトウェアとして実行される機能ブロックである。
最近利用した目的地を再度目的地として設定する場合を例に、本実施の形態のナビゲーションシステム100の動作を説明する。この実施の形態では、発話者のスイッチ押下圧と口調、音圧、内容といった発話情報とを測定して操作履歴として保存し、当該履歴情報を利用して操作者の音声入力の習熟度を判定する。なお、以下の本実施の形態の説明では、本発明に直接関わりのない、入力された音声に対して誤認識が発生しなかった場合についての記載は省略する。
車のイグニションスイッチがオンにされると、音声認識処理部106が起動する。そして操作スイッチ102の短押しにより音声入力の開始が判断されると、このときのスイッチ押下圧が圧力センサ115により計測され、スイッチ押下圧記憶部109に記憶される。ここで計測されるスイッチ押下圧は、誤認識が発生していない正常時のスイッチ押下圧であり、以下、正常時のスイッチ押下圧と呼ぶ。その後、発話可能状態となり、「コマンドをどうぞ」のように発話を促すガイダンス音声がスピーカー103より出力され、同時に発話を促すガイダンスがモニタ113に表示される。
音声認識用辞書107からコマンドリストが選択され、音声認識処理部106にセットされる。ここでコマンドリストとは、発話者が発話する可能性のあるコマンド、例えば目的地設定を行うために発話する可能性がある「住所」や「施設名」や「最近の目的地」などのリストである。このコマンドリストのコマンドと発話者から入力される音声情報とがマッチング処理され、音声の認識が行われる。コマンドリストのセットが完了すると、スピーカー103よりビープ音が出力され、ビープ音が終了すると音声入力待ち受け状態となる。このとき、モニタ113には音声入力可能であることを表すアイコンが表示される。
ここで、使用者が最近利用した目的地に再度目的地設定を行うためのコマンド「最近の目的地」を発話したと判断されると、このときの発話情報、すなわち発話口調、発話音圧、発話内容が発話情報解析部116により解析され、発話情報記憶部114に記憶される。ここで解析される発話情報は、誤認識が発生していない正常時の発話情報であり、以下、正常時の発話情報と呼ぶ。そして、音声認識処理部106にセットされたコマンドリストのコマンドと発話内容とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。認識結果はモニタ113に表示され、同時にスピーカー103より音声出力される。
コマンドが認識されると、発話者が次に発話する可能性のあるコマンドが、新たなコマンドリストとして音声認識用辞書107から選択され、音声認識処理部106にセットされる。ここでは、モニタ113に表示された最近の目的地リストに対応する番号がコマンドリストとして選択され、音声認識処理部106にセットされる。たとえば5件の目的地が候補としてモニタ113に表示されている場合には、「1番」「2番」「3番」「4番」「5番」と5つのコマンドが発話者が発話する可能性のあるコマンドとしてセットされる。
次に、誤認識が発生したか否かの判断が行われる。モニタ113に表示され、音声出力された認識結果が、発話者が実際に発話した直前の発話内容である「最近の目的地」と異なる場合には、発話者は誤認識が発生したと判断し、操作スイッチ102を操作して再発話を行おうとする。逆に、モニタ113に表示され、音声出力された認識結果が、発話者が実際に発話した直前の発話内容と同じ場合には、発話者は正常に認識されたと判断し、音声認識を続行する。ここでは、一定時間内に操作スイッチ102が操作された場合には誤認識が発生したと判断し、一定時間内に操作スイッチ102が操作されない場合には誤認識が発生しないと判断する。
直前の発話内容「最近の目的地」が正常に認識されたと判断された場合には、次に音声入力が終了したかの判断が行われる。音声入力が終了したかの判断は、最新の発話後に音声認識用辞書107から選択され、音声認識処理部106にセットされる新たなコマンドリストが存在するかによって行われる。ここでは、上記で説明したとおり、最新の発話内容「最近の目的地」に対して「1番」〜「5番」という新たなコマンドリストがセットされたため、引き続き目的地設定が続けられると判断し、音声入力は終了していないと判断される。もし、新たなコマンドリストが何も設定されていない場合には、これ以降受け付けるコマンドの候補がないため、音声入力が終了したと判断される。
そして引き続き「最近の目的地の番号をどうぞ」のように発話を促すガイダンス音声がスピーカー103より出力され、同時に発話を促すガイダンスがモニタ113に表示される。スピーカー103よりビープ音が出力され音声入力待ち受け状態になると同時に、モニタ113には最近の目的地一覧が表示され、発話者はモニタ113に表示された最近の目的地リストから、それぞれの目的地に付けられた番号を選択し発話することになる。このとき、モニタ113には音声入力可能であることを表すアイコンが表示される。
発話者が目的地リストの中から「2番」を選択し発話すると、発話内容はマイク101を通して入力され、発話音声の発話情報が発話情報解析部116により解析され、発話情報記憶部114に記憶される。そして、コマンドリストとしてセットされた「1番」〜「5番」と発話した「2番」とが音声認識処理部106によってマッチング処理される。そして、最も一致度の高いコマンドが選択され、認識結果として決定される。認識結果は、モニタ113に表示され、同時にスピーカー103より音声出力される。
ここでは、「2番」が発話されたにも関わらず、「4番」が認識された、すなわち誤認識が発生した場合について以下の説明を行う。
「2番」を発話したにも関わらず、画面表示および音声出力された内容が「4番」であった場合には、発話者は発話内容が誤認識されたと判断する。誤認識が発生した場合、操作者は一般に再発話を行う。この操作は一般に音声入力に習熟した人ほどスムーズに実行することができると考えられる。本実施の形態におけるナビゲーションシステム100では、操作スイッチ102を短押しすることにより、最新の1発話のみキャンセルすることができる。また、操作スイッチ102を長押しすることにより、音声入力を全てキャンセルすることができる。
ここで、操作スイッチ102が短押しされたと判断された場合、すなわち最新の1発話のみキャンセルされたと判断された場合には、誤認識発生検出部108によって誤認識の発生が検出される。また、このときの操作スイッチ102の押下圧が圧力センサ115により計測され、スイッチ押下圧記憶部109に記憶される。ここで計測されるスイッチ押下圧は、誤認識発生後のスイッチ押下圧であり、以下、誤認識時のスイッチ押下圧と呼ぶ。そして誤認識が発生した最新の1発話(「2番」)がキャンセルされる。
操作スイッチ102が長押しされたと判断された場合、すなわち全発話がキャンセルされたと判断された場合には、誤認識発生検出部108によって誤認識の発生が検出される。また、このときの操作スイッチ102の押下圧が圧力センサ115により計測され、スイッチ押下圧記憶部109に記憶される。これは誤認識時のスイッチ押下圧である。そして今までに行った全発話(「最近の目的地」と「2番」)がキャンセルされる。
そして、音声入力システムによって音声待ち受け状態への準備処理が行われ、音声待ち受け状態になると、発話者は再発話を行う。最新の1発話のみキャンセルした場合には、発話者は最新の1発話である「2番」を再発話する。また、全発話をキャンセルした場合には、発話者は最初から音声入力をやり直さなければならず、「最近の目的地」を発話することになる。
発話者が発話したと判断されると、この時の発話音声の発話情報が発話情報解析部116により解析され、発話情報記憶装置110に記憶される。ここで解析される発話情報は、誤認識発生後の発話情報であり、以下、誤認識時の発話情報と呼ぶ。
そして、スイッチ押下圧記憶部109に記憶された正常時のスイッチ押下圧と誤認識時のスイッチ押下圧、および発話情報記憶部114に記憶された正常時の発話情報と誤認識時の発話情報が誤認識対応履歴管理部110へ記憶される。これにより、誤認識が発生した際の誤認識前後(正常時、誤認識時)のスイッチ押下圧と誤認識前後の発話情報とが認識対応履歴管理部110に記憶されることになる。
その後、再発話した内容の音声認識が行われ、認識結果がモニタ113に表示され、同時にスピーカー103より認識結果が音声出力される。ここで、再発話された「2番」が正常に認識されると、次に発話者が発話する可能性のあるコマンドが、新たなコマンドリストとして音声認識用辞書107から選択され、音声認識処理部106にセットされる。しかし、ここでは、既に目的地番号の選択が完了しており、次に発話者が発話する可能性のあるコマンドが選択できないことから、音声認識処理部106にはコマンドが何もセットされない。よって、これで音声入力は終了したと判断され、指定された目的地までのナビゲーションが開始される。
以上の処理によって誤認識対応履歴管理部110に格納された履歴情報を基に、正常時と誤認識時のスイッチ押下圧の変化により、あるいは発話情報の口調、音圧、内容の正常時と誤認識時の変化により習熟度が判定される。発話口調の変化としては、正常時と比べて誤認識時の口調が早くなるか遅くなるかである。発話音圧の変化としては、正常時と比べて誤認識時の音圧が上がるか下がるかである。発話内容の変化としては、正常時に1フレーズで発話した内容を、誤認識発生時にそのまま発話したかあるいは分割して発話したかである。
以上説明した実施の形態の音声認識処理について、図3のフローチャートを参照して説明する。図3に示す処理手順は、車のイグニションスイッチがオンされると起動するプログラムとして実行される。図3のステップS10において、操作スイッチ102の短押しが判断されると、発話可能状態となる。この時、ステップS11において、正常時のスイッチ押下圧が、圧力センサ115により計測され、スイッチ押下圧記憶部109に記憶される。そして、ステップS20において、「コマンドをどうぞ」のように発話を促すガイダンス音声をスピーカー103より出力し、同時に発話を促すガイダンスをモニタ113に表示する。
ステップS30において、前述したコマンドリストが音声認識用辞書107から選択され、音声認識処理部106にセットされる。コマンドリストのセットが完了すると、ステップS40にて、スピーカー103よりビープ音が出力され、ステップS50にて音声入力待ち受け状態となる。このとき、モニタ113には音声入力可能であることを表すアイコンが表示される。
ステップS60において、発話が判断されると、ステップS61にて正常時の発話情報が発話情報解析部により解析され、発話情報記憶部114に記憶される。ステップS70において、ステップS40で音声認識処理部106にセットされたコマンドリストのコマンドと発話内容とがマッチング処理される。これによりコマンドリストから最も一致度の高いコマンドが選択され、認識結果として決定される。
ステップS70にてコマンドが認識されると、ステップS80にて認識結果がモニタ113に表示され、同時にスピーカー103より認識結果が音声出力される。
ステップS81において、次に発話者が発話する可能性のあるコマンドが、新たなコマンドリストとして音声認識用辞書107から選択され、音声認識処理部106にセットされる。ここでは、ステップS60での発話の内容を基に、次に発話者が発話する可能性のあるコマンドの候補が音声認識処理部106にセットされる。もし、コマンドの候補が存在しない場合は、音声認識処理部106には何もセットされない。
ステップS90において、誤認識が発生したか否かの判断が行われる。誤認識発生の判断は、上述したとおり一定時間内に操作スイッチ102が押下されたか否かによって行われる。ここで一定時間内に操作スイッチ102が操作されたと判断された場合には、誤認識が発生したと判断し、後述するステップS91へ進む。一定時間内に操作スイッチ102が操作されない場合は、誤認識は発生していないと判断し、ステップS100へ進む。
図4はステップS91の誤認識発生時の処理を示したフローチャートである。誤認識が発生したと判断され、ステップS140にて、操作スイッチ102が短押しされたと判断された場合、すなわち最新の1発話のみキャンセルされたと判断された場合には、ステップS150へ進み、誤認識発生検出部108によって誤認識の発生が検出される。また、ステップS151において、誤認識時の短押しスイッチ押下圧が圧力センサ115により計測され、スイッチ押下圧記憶部109により記憶される。そしてステップS152において、誤認識が発生した最新の1発話がキャンセルされる。
ステップS140にて、操作スイッチ102が長押しされたと判断された場合、すなわち全発話がキャンセルされたと判断された場合には、ステップS160へ進み、誤認識発生検出部108によって誤認識の発生が検出される。また、ステップS161において、誤認識時の長押しスイッチ押下圧が圧力センサ115により計測され、スイッチ押下圧記憶部109により記憶される。そしてステップS162において、今までに行った全発話がキャンセルされる。
ステップS170において、図3のステップS20〜ステップS40の処理、すなわち音声待ち受け状態への準備処理が行われ、ステップS180にて音声待ち受け状態となる。
ステップS190においては、使用者の発話の有無を判定する。ステップS140で操作スイッチ102が短押しされ、最新の1発話のみキャンセルした場合には、発話者は最新のものを再発話する。また、ステップS140で操作スイッチ102が長押しされ、全発話をキャンセルした場合には、発話者は最初から音声入力をやり直す。
ステップS190において、発話者からの発話が判断されると、ステップS200にて、誤認識時の発話情報が発話情報解析部116により解析され、発話情報記憶装置110に記憶される。
ステップS210において、スイッチ押下圧記憶部109に記憶された正常時のスイッチ押下圧と誤認識時のスイッチ押下圧、および発話情報記憶部114に記憶された正常時の発話情報と誤認識時の発話情報が誤認識対応履歴管理部110へ記憶される。その後、図3のステップS70へ戻る。
ステップS90において、誤認識は発生していないと判断された場合には、ステップS100へ進み、ステップS81においてセットされたコマンドリストの有無によって音声入力が終了したかの判断が行われる。発話者が次に発話する可能性のあるコマンドがセットされていれば、引き続き音声入力が行われるものと判断してステップS101へ進む。ステップS101では、発話を促すガイダンス音声をスピーカー103より出力し、同時に発話を促すガイダンスをモニタ113に表示し、ステップS40へ戻る。また、コマンドリストに何も設定されていない場合は、音声入力が終了したと判断し、ステップS110へ進む。
ステップS110では、誤認識対応履歴管理部110の記憶内容を基に習熟度判定を行うか否かの判断がなされる。誤認識対応履歴管理部110の記憶内容は、音声入力が所定回数行われる毎に、習熟度判定部111によって分析されるため、ステップS110では、音声入力回数が所定の回数を超えているかの判断が行われることになる。ここで何回以上の音声入力がされた場合に習熟度判定を行うかについては、事前に習熟度判定部111に設定しておく必要があり、設定する回数は必要に応じて変更が可能である。
ステップS110にて、習熟度判定を行わないと判断された場合には、ステップS130において、ナビゲーション装置により上記音声入力にて検索した目的地へのナビゲーションが開始し、音声入力処理を終了する。ステップS110にて、習熟度判定を行うと判断された場合には、以下の処理を行う。
習熟度判定処理においては、再発話前後における正常時と誤認識時の操作者のスイッチ押下圧の変化、再発話前後の発話口調の変化、再発話前後の発話音圧の変化、再発話時の発話内容の変化といった情報を基に発話者の習熟度の判定が行われる。たとえば、正常時と誤認識時におけるスイッチ押下圧の変化が小さい場合には、誤認識時に慌てることなく操作スイッチ102を押していると判断できることから、音声認識に習熟していると評価することができる。
発話口調の変化による判断では、誤認識時の発話口調が正常時の発話口調と比べてゆっくりとした口調に変化した場合は、発話者は音声認識装置が認識しやすいようにあえてゆっくり発話したと判断できることから、音声入力に習熟していると評価される。
発話音圧の変化による判断では、誤認識時の発話音圧の方が正常時の発話音圧と比べて上がった場合は、発話者は音声認識装置が認識しやすいように言葉を強く発話したと判断できることから、音声入力に習熟していると評価される。
発話内容の変化による判断では、誤認識発生前に1フレーズで発話した内容を分割して話した場合は、発話者は音声認識装置が認識しやすいように単語を分けて話していると判断できることから、音声入力に習熟していると評価される。
図5はステップS120の習熟度判定処理を示したフローチャートである。ステップS310において、誤認識対応履歴管理部110の記憶内容を読み込む。次にステップS320において、ステップS310で読み込んだ履歴情報を基にスイッチ押下圧の変化が評価される。正常時と誤認識発生時でスイッチ押下圧に変化がなければ、ステップS330へ進み、スイッチ押下圧の変化の点では習熟していると判定される(ここでは「習熟度1:○」と表示する)。逆に、正常時と誤認識発生時でスイッチ押下圧に変化があれば、ステップS340へ進み、スイッチ押下圧の変化の点では未習熟であると判定される。(ここでは「習熟度1:×」と表示する)。
ステップS350〜ステップS430において、ステップS310で読み込んだ履歴情報を基に発話情報の変化が評価される。ステップS350においては、まず、発話口調の変化が評価される。正常時の発話よりも誤認識時の発話の方がゆっくりと発話されていた場合は、ステップS360へ進み、発話口調の変化の点では習熟していると判定される(ここでは「習熟度2:○」と表示する)。逆に、正常時の発話よりも誤認識時の発話の方が速く発話されていた場合、あるいは発話口調に変化がない場合は、ステップS370へ進み、発話口調の変化の点では未習熟であると判定される(ここでは「習熟度2:×」と表示する)。
ステップS380においては、発話音圧の変化が評価される。正常時の発話よりも誤認識時の発話の方が音圧が上がっていた場合は、ステップS390へ進み、発話音圧の変化の点では習熟していると判定される(ここでは「習熟度3:○」と表示する)。逆に、正常時の発話よりも誤認識時の発話の方が音圧が下がっていた場合、あるいは発話音圧に変化がない場合は、ステップS400へ進み、発話音圧の変化の点では未習熟であると判定される(ここでは「習熟度3:×」と表示する)。
ステップS410においては、発話内容の変化が評価される。正常時の発話時に1フレーズで発話していた内容を分割して発話した場合は、ステップS420へ進み、発話内容の変化の点では習熟していると判定される(ここでは「習熟度4:○」と表示する)。逆に、誤認識時の発話の際にフレーズの分割がされていない場合は、ステップS430へ進み、発話内容の変化の点では未習熟であると判定される(ここでは「習熟度4:×」と表示する)。
ステップS440において、上記習熟度1〜4の結果から発話者の習熟度判定が行われる。習熟度1〜4の全てが○と判定された場合、すなわち、スイッチ押下圧の変化と発話情報の全ての項目において習熟していると判定された場合は、ステップS450へ進み、総合的に習熟した発話者であると判定される。習熟度1〜4のうち、習熟度:○の評価がされたものが2項目か3項目だった場合は、ステップS460へ進み、総合的に普通の発話者であると判定される。習熟度1〜4のうち、習熟度:○の評価がされたものが無いか1項目のみだった場合は、ステップS470へ進み、総合的に未習熟な発話者であると判定される。
総合的に習熟した発話者であると判定された発話者に対しては、ステップS480にて、以降の音声入力実行時のガイダンス音声やビープ音を簡易なものに変更する。具体的には、通常「コマンドをどうぞ」→ビープ音→「最近の目的地番号をどうぞ」→ビープ音→「○番の地点までの経路を探索します」という一連のガイド音声、ビープ音が、習熟者に対しては、ビープ音→「番号をどうぞ」→ビープ音→「○番」のように、必要最低限のガイドに簡略化され、習熟者がストレスを感じることなく、音声入力を実行可能な環境を提供することができる。また、逆に未習熟であると判定された発話者に対しては、ステップS490にてガイダンス音声やビープ音を通常よりも丁寧なものに変更する。
そして、図3のステップS120の習熟度判定処理が完了すると、ステップS130に進み、ナビゲーション装置により上記音声入力にて検索した目的地へのナビゲーションを開始し、音声入力処理を終了する。
以上のように、本実施の形態によれば、次のような作用効果が得られる。
(1)誤認識発生前後の操作者のスイッチ押下圧と発話情報を操作履歴に保存し、当該履歴情報を分析することによって操作者の音声入力の習熟度を判定するようにしたため、操作者の音声入力の習熟度を簡便に信頼性高く把握することができる。
(2)習熟度の判定の際に、発話口調、発話音圧、発話内容に基づいて判断することとしたため、操作者の誤認識時の操作に対する慣れや、落ち着き具合を習熟度の判定基準に取り入れることができ、より信頼性の高い習熟度判定を可能とすることができる。
(3)習熟度の判定をスイッチ押下圧と発話情報とに基づいて行うこととしたため、発話時の環境の影響を受けず、発話者の本来の習熟度を判定することができる。
(4)スイッチ押下圧による判定では、正常時と誤認識発生時におけるスイッチ押下圧の変化が小さい方が音声入力の習熟度が高いと判定することとしたため、誤認識発生時に発話者が慌てることなく操作スイッチを押している場合に音声認識に習熟していると評価することができる。
(5)発話口調による判定では、誤認識発生時の発話口調が正常時の発話口調と比べて、ゆっくりとした口調に変化した方が音声入力の習熟度が高いと判定することとしたため、誤認識発生時に発話者が音声認識装置が認識しやすいようにあえてゆっくり発話した場合に音声入力に習熟していると評価することができる。
(6)発話音圧による判定では、誤認識発生時の発話音圧が正常時の発話音圧と比べて上がった方が音声入力の習熟度が高いと判定することとしたため、誤認識発生時に発話者が音声認識装置が認識しやすいように言葉を強く発話した場合に音声入力に習熟していると評価することができる。
(7)発話内容による判定では、誤認識発生前に1フレーズで発話した内容を分割して話した方が音声入力の習熟度が高いと判定することとしたため、誤認識発生時に発話者が音声認識装置が認識しやすいように単語を分けて話している場合に音声入力に習熟していると評価することができる。
(8)音声入力の習熟度に応じて、出力する音声ガイダンスを変更することによって、習熟者には簡単なガイダンスを与えて音声入力をスムーズに行うことを可能にする一方、未習熟者には丁寧なガイダンスを与えることにより、ミス無く、また迷うことなく音声入力を行うことを可能とする。
なお、本実施の形態における習熟度判定方法については、誤認識前後のスイッチ押下圧の変化と誤認識前後の発話情報の変化について、習熟度1と習熟度2の○×を組み合わせて、習熟、普通、未習熟を判定する判定方法について説明したが、これに限られるものではない。誤認識前後のスイッチ押下圧の変化と誤認識前後の発話情報の変化のいずれかの結果を重視して判定しても良いし、習熟度のレベルを3段階以上(○△×等)に設定しても良い。また、習熟度判定のレベルについても、習熟、未習熟の2段階のみでも良いし、4段階以上に細かく分類しても良い。この時、その段階ごとにガイド音声・ビープ音の簡略化の度合いを多段階に変化させることも可能である。
また、本実施の形態においては、習熟度1〜4の全ての結果を総合して習熟度の判定を行う方法について説明したが、習熟度1〜4のいずれか一つの結果のみを利用して判定しても良い。すなわち、スイッチ押下圧の変化、発話口調の変化、発話音圧の変化、発話内容の変化のいずれか1つの習熟度から音声入力に対する総合的な習熟度を判定しても良い。また、習熟度1のスイッチ押下圧の変化に基づく習熟度と習熟度2〜3の発話情報に基づく習熟度のいずれか一方の結果から習熟度を判定しても良い。
習熟度の評価を行う順番は図5のフローチャートの流れに限定されず、習熟度1〜4のどの判定から行ってもよく、あるいは全ての評価を並列に行っても良い。
誤認識発生時に音声入力をキャンセルした後、再発話を行わず操作を中止する場合も考えられるため、再発話までの時間には上限値を設定し、設定時間以上再発話が行われなかった場合には、音声入力を終了するようにしてもよい。
―実施の形態の変形例―
本発明においては、個々の音声コマンドごとに上記習熟度を判定することも可能である。この時、誤認識対応履歴管理部110には、上記で説明したスイッチ押下圧と発話情報に加えて発話された音声コマンドも記憶され、この3つの情報を基に習熟度判定部111は判定を行う。
これは、特定のコマンドのみをよく利用する発話者もおり、その発話者は頻繁に使用するコマンドについては習熟度が高いが、あまり使用しないコマンドについては習熟度が低い場合が考えられるためである。具体的には、ユーザが目的地を設定する際、最近の目的地から目的地を選択するケースが多い場合には、「最近の目的地」というコマンドを言い慣れているといえる。これに対して別の目的地設定用のコマンドである「施設名」についてはあまり使用する機会がないため言い慣れていないことが考えられる。
この場合、発話者が「最近の目的地」という言い慣れたコマンドを発話した場合には、もし誤認識が発生した場合であっても、発話者は対応に慣れているため、習熟度判定部111は、この発話者は「最近の目的地」というコマンドに対して習熟していると判定する。そしてこの発話者が「最近の目的地」というコマンドを発話した場合に、以降の音声ガイダンスを習熟者向けの簡易なものに変更する。また逆に発話者が「施設名」という慣れていないコマンドを発話し、誤認識が発生した場合には、発話者は対応に慣れていないため習熟度判定部111により未習熟であると判定されることが考えられる。この場合には、発話者が未習熟な「施設名」というコマンドを発話した場合に、以降の音声ガイダンスを未習熟者向けの丁寧なものに切り替える。
以上のように、個々の音声コマンドごとに習熟度を判定することによって、より詳細な判定結果を得ることができるようになり、発話者ごとにだけではなく、発話したコマンドの内容までを考慮した音声ガイダンスの切り替えを行うことができる。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、操作スイッチ102は再発話検出手段に相当する。誤認識発生検出部108は誤認識検出手段に、スイッチ押下圧記憶部109はスイッチ押下圧記憶手段に、習熟度判定部111は習熟度判定手段に相当する。発話情報記憶部114は発話情報記憶手段に相当する。圧力センサ115はスイッチ押下圧検出手段に、発話情報解析部116は発話情報解析手段に相当する。
上述の説明では、本発明による音声認識装置をカーナビゲーションシステムに搭載したが、本発明はこれに限定されず、以下のように変形することもできる。たとえば、カーナビゲーションシステムの代わりにオーディオシステムやハンズフリー電話システム等に搭載しても良い。さらに、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
本発明によるカーナビゲーションシステムにおける音声入力システムのシステムブロック図である。 音声入力操作スイッチの説明図である。 カーナビゲーションシステムで、履歴情報を利用して操作者の音声入力の習熟度を判定する処理のフローチャートである。 カーナビゲーションシステムで、誤認識が発生したときの処理を表すフローチャートである。 習熟度判定処理を表すフローチャートである。
符号の説明
100 音声入力システム
101 マイク
102 操作スイッチ
103 スピーカー
104 メモリ
105 CPU
106 音声入力装置
107 音声認識用辞書
108 誤認識発生検出部
109 スイッチ押下圧記憶部
110 誤認識対応履歴管理部
111 習熟度判定部
112 ナビゲーションシステム制御装置
113 モニタ
114 発話情報記憶部
115 圧力センサ
116 発話情報解析部

Claims (8)

  1. 音声入力手段を介して入力した発話者の発話内容の誤認識を検出する誤認識検出手段と、
    前記誤認識検出時に、所定時間内に再発話が行われたことを検出する再発話検出手段と、
    操作スイッチの押下圧を検出するスイッチ押下圧検出手段と、
    前記検出した操作スイッチの押下圧を記憶するスイッチ押下圧記憶手段と、
    前記音声入力された発話情報を解析する発話情報解析手段と、
    前記解析した発話情報を記憶する発話情報記憶手段と、
    前記記憶したスイッチ押下圧と発話情報との少なくともいずれか一つに基づいて、操作者の音声入力の習熟度を判定する習熟度判定手段とを有することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記発話情報は、発話口調、発話音圧、発話内容の少なくともいずれか一つであることを特徴とする音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    前記習熟度判定手段は、前記スイッチ押下圧による判定では、誤認識が発生していない正常時と誤認識が発生した誤認識時におけるスイッチ押下圧の変化が小さい方が音声入力の習熟度が高いと判定することを特徴とする音声認識装置。
  4. 請求項2に記載の音声認識装置において、
    前記習熟度判定手段は、前記発話口調による判定では、前記誤認識時の発話口調が前記正常時の発話口調と比べて、ゆっくりとした口調に変化した方が音声入力の習熟度が高いと判定することを特徴とする音声認識装置。
  5. 請求項2に記載の音声認識装置において、
    前記習熟度判定手段は、前記発話音圧による判定では、前記誤認識時の発話音圧が前記正常時の発話音圧と比べて上がった方が音声入力の習熟度が高いと判定することを特徴とする音声認識装置。
  6. 請求項2に記載の音声認識装置において、
    前記習熟度判定手段は、前記発話内容による判定では、誤認識発生前に1フレーズで発話した内容を分割して話した方が音声入力の習熟度が高いと判定することを特徴とする音声認識装置。
  7. 請求項1〜6のいずれかに記載の音声認識装置において、
    前記習熟度判定手段は、発話されるコマンド毎に習熟度の判定を行うことを特徴とする音声認識装置。
  8. 請求項1〜7のいずれかに記載の音声認識装置において、
    前記習熟度判定手段で判定された習熟度に応じて、音声入力中の音声ガイダンスを変更することを特徴とする音声認識装置。
JP2003319410A 2003-09-11 2003-09-11 音声認識装置 Pending JP2005084590A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003319410A JP2005084590A (ja) 2003-09-11 2003-09-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003319410A JP2005084590A (ja) 2003-09-11 2003-09-11 音声認識装置

Publications (1)

Publication Number Publication Date
JP2005084590A true JP2005084590A (ja) 2005-03-31

Family

ID=34418357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003319410A Pending JP2005084590A (ja) 2003-09-11 2003-09-11 音声認識装置

Country Status (1)

Country Link
JP (1) JP2005084590A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006300552A (ja) * 2005-04-15 2006-11-02 Nippon Seiki Co Ltd 車両用ナビゲーション装置
WO2008084575A1 (ja) * 2006-12-28 2008-07-17 Mitsubishi Electric Corporation 車載用音声認識装置
WO2017179101A1 (ja) * 2016-04-11 2017-10-19 三菱電機株式会社 応答生成装置、対話制御システムおよび応答生成方法
CN111883112A (zh) * 2020-07-27 2020-11-03 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6332624A (ja) * 1986-07-28 1988-02-12 Canon Inc 情報処理装置
JPH1020884A (ja) * 1996-07-04 1998-01-23 Nec Corp 音声対話装置
JP2000242295A (ja) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp 音声認識装置および音声対話装置
JP2001331196A (ja) * 2000-05-22 2001-11-30 Nec Corp 音声応答装置
JP2003114794A (ja) * 2001-10-03 2003-04-18 Alpine Electronics Inc 操作案内装置及び操作案内方法
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6332624A (ja) * 1986-07-28 1988-02-12 Canon Inc 情報処理装置
JPH1020884A (ja) * 1996-07-04 1998-01-23 Nec Corp 音声対話装置
JP2000242295A (ja) * 1999-02-24 2000-09-08 Mitsubishi Electric Corp 音声認識装置および音声対話装置
JP2001331196A (ja) * 2000-05-22 2001-11-30 Nec Corp 音声応答装置
JP2003114794A (ja) * 2001-10-03 2003-04-18 Alpine Electronics Inc 操作案内装置及び操作案内方法
JP2003150194A (ja) * 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006300552A (ja) * 2005-04-15 2006-11-02 Nippon Seiki Co Ltd 車両用ナビゲーション装置
WO2008084575A1 (ja) * 2006-12-28 2008-07-17 Mitsubishi Electric Corporation 車載用音声認識装置
JPWO2008084575A1 (ja) * 2006-12-28 2010-04-30 三菱電機株式会社 車載用音声認識装置
US8315868B2 (en) 2006-12-28 2012-11-20 Mitsubishi Electric Corporation Vehicle-mounted voice recognition and guidance apparatus
JP5137853B2 (ja) * 2006-12-28 2013-02-06 三菱電機株式会社 車載用音声認識装置
DE112007003024B4 (de) * 2006-12-28 2013-09-12 Mitsubishi Electric Corp. Fahrzeugmontierte Spracherkennungsvorrichtung
WO2017179101A1 (ja) * 2016-04-11 2017-10-19 三菱電機株式会社 応答生成装置、対話制御システムおよび応答生成方法
JPWO2017179101A1 (ja) * 2016-04-11 2018-09-20 三菱電機株式会社 応答生成装置、対話制御システムおよび応答生成方法
CN111883112A (zh) * 2020-07-27 2020-11-03 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备
CN111883112B (zh) * 2020-07-27 2022-03-18 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN106796786B (zh) 语音识别***
US10446155B2 (en) Voice recognition device
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
JP4260788B2 (ja) 音声認識機器制御装置
JP4859982B2 (ja) 音声認識装置
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
US20050021341A1 (en) In-vehicle controller and program for instructing computer to excute operation instruction method
US20050125233A1 (en) Vehicle mounted controller
JP4867622B2 (ja) 音声認識装置、および音声認識方法
JP4466379B2 (ja) 車載音声認識装置
US20070005358A1 (en) Method for determining a list of hypotheses from a vocabulary of a voice recognition system
JP5277704B2 (ja) 音声認識装置及びこれを用いる車両システム
JP4770374B2 (ja) 音声認識装置
US6721702B2 (en) Speech recognition method and device
JP2010078354A (ja) 車載機器の操作装置及び車載機器の操作方法
JP2006208486A (ja) 音声入力装置
JP2005084590A (ja) 音声認識装置
JP2005084589A (ja) 音声認識装置
CN108352167B (zh) 包括可佩戴设备的车辆语音识别
JP2004301875A (ja) 音声認識装置
US10158745B2 (en) Vehicle and communication control method for determining communication data connection for the vehicle
JP4453377B2 (ja) 音声認識装置、プログラム及びナビゲーション装置
JP4736423B2 (ja) 音声認識装置および音声認識方法
JP2009271835A (ja) 機器操作制御装置及びプログラム
JPH11231892A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090623