JP4363076B2 - 音声制御装置 - Google Patents

音声制御装置 Download PDF

Info

Publication number
JP4363076B2
JP4363076B2 JP2003109283A JP2003109283A JP4363076B2 JP 4363076 B2 JP4363076 B2 JP 4363076B2 JP 2003109283 A JP2003109283 A JP 2003109283A JP 2003109283 A JP2003109283 A JP 2003109283A JP 4363076 B2 JP4363076 B2 JP 4363076B2
Authority
JP
Japan
Prior art keywords
command
user
control target
commands
target device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003109283A
Other languages
English (en)
Other versions
JP2004086150A (ja
Inventor
雅之 ▲高▼見
徹 名田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2003109283A priority Critical patent/JP4363076B2/ja
Priority to US10/602,687 priority patent/US7469211B2/en
Publication of JP2004086150A publication Critical patent/JP2004086150A/ja
Application granted granted Critical
Publication of JP4363076B2 publication Critical patent/JP4363076B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Selective Calling Equipment (AREA)
  • Navigation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザの発話内容を認識し、その発話内容に応じた制御対象機器の制御を行う音声制御装置に関する。
【0002】
【従来の技術】
従来、ユーザの発話内容を認識し、これに基づいて制御対象機器を操作する音声制御装置がある。
【0003】
この従来装置によれば、図9で示すように、ユーザがマイクZ1に発話を行うと、音声認識エンジンZ2は発話内容に対応するコマンドを認識し、そのコマンドを機器操作信号発生部Z3へ出力する。同時に、音声合成エンジンZ4に対して、ユーザの発話内容が認識された旨の内容を通知する音声データを合成して、スピーカZ5へ出力するよう指示を与える。これにより、ユーザは自身の発話内容に対する音声認識が成功したことを確認することができる。
【0004】
次に、機器操作信号発生部Z3は、音声認識エンジンZ2から出力されたコマンドに対応する制御信号を制御対象機器Z6へ出力する。制御対象機器Z6は、機器操作信号発生部Z3から出力された制御信号に基づいて動作状態を変更する。動作状態の変更が完了すると、制御対象機器Z6は音声合成エンジンZ4に対して、動作状態変更完了を通知する信号を出力する。音声合成エンジンZ4は、前述の通知信号を受けると、制御対象機器Z6の動作状態の変更が完了した旨の内容を通知する音声データを合成し、スピーカZ5へ出力する。これにより、ユーザは制御対象機器Z6の動作状態が変更されたことを確認することができる。
【0005】
【発明が解決しようとする課題】
しかしながら、従来技術の音声制御装置では、ユーザの発話内容を認識する際に、制御対象機器の動作状態までは考慮していない。そのため、ユーザが現在の動作状態においては操作できないコマンドを発話した場合、以下のような問題が生ずる。
【0006】
例えば、ラジオのAMモードのチャンネルを受信している際に、FMモードの放送局をユーザが発話した場合、その放送局を認識した時点で、その放送局名を音声合成エンジンZ4によってトークバックする。しかしながら、AMモードにおいてFMモードの放送局に変更することはできないため、直後に、AMモードからFMモードに変更してからやり直して下さい等の報知を行う。この場合、ユーザは自身の発話内容の音声認識が成功したと思った直後に、音声操作の失敗を報知されるため、音声操作に関して不快感が生ずる場合がある。
【0007】
また、例えばオーディオがONの時、ユーザがオーディオOFFと発話したにも関わらず、音声認識エンジンZ2がオーディオONと誤認識すると、既にオーディオはONされていますと、トークバックする。この場合も、制御対象機器の動作状態を何ら考慮していないため、上記のような誤認識及び不適切なトークバックが行われてしまう。
【0008】
本発明は、前述の問題点を鑑み、ユーザの発話内容を認識する際、制御対象機器の動作状態を考慮することにより、ユーザの発話内容の認識や制御対象機器の制御を適切に行いうる音声制御装置を提供することを目的とする。
【0018】
【課題を解決するための手段】
上記目的を達成するために、請求項1に記載の音声制御装置は、ユーザの発話内容を認識し、その発話内容に応じた制御対象機器の操作を行う音声制御装置であって、発話されるべき複数のコマンドを音声認識データとして記憶する記憶手段と、記憶手段に記憶されている複数のコマンドを用いて、ユーザの発話内容をその中の1つのコマンドとして認識する音声認識手段と、制御対象機器の動作状態を検出する検出手段と、音声認識手段によって認識されたコマンドが、相反する操作を実行するための2種のコマンドの一方のコマンドであり、かつ前記検出手段によって検出された前記制御対象機器の動作状態においてその一方のコマンドが選択不可と判別した場合、音声認識手段によって認識されたコマンドを、前記2種のコマンドの他方のコマンドに置換する置換手段とを備えることを特徴とする。
【0019】
音声認識手段が2〜3回連続して音声認識を誤ると、ユーザは音声によるコマンド入力を断念し、制御対象機器を手動で操作することが多く、却って使い勝手が悪くなる。相反する操作を実行するための2種のコマンドに関して、音声認識手段によって認識されたコマンドが2種のコマンドの一方のコマンドであり、かつ検出手段によって検出された制御対象機器の動作状態においてその一方のコマンドが選択不可と判別された場合には、置換手段によって、2種のコマンドの他方のコマンドに置換することで、音声認識手段がユーザの発話したコマンドを誤認識した場合においても、制御対象機器の動作状態に応じてコマンドの置換が行われることとなり、ユーザの意図した動作を実行することが可能となる。そのため、ユーザは、自身が意図するコマンドが決定されるまで何度も発話を繰り返す必要がなくなり、音声操作における煩わしさが低減される。
【0024】
請求項2に記載のように、相反する操作を実行するための2種のコマンドは、制御対象機器の動作または所定の機能をオンするためのコマンドとオフするためのコマンドであることが望ましい。特に、制御対象機器の動作または所定の機能をオンするためのコマンドとオフするためのコマンドに関しては、音声認識手段によって他方のコマンドとして誤認識されやすいためである。
【0025】
請求項3に記載のように、相反する操作を実行するための2種のコマンドにより、制御対象機器の動作状態が多段階に変化するものである場合、音声認識手段によって認識されたコマンドが2種のコマンドの一方のコマンドであり、かつ検出手段によって検出された制御対象機器の動作状態においてその一方のコマンドが選択不可と判別された場合であっても、置換手段は、その一方のコマンドの置換を実行しないことが望ましい。例えば、オーディオのボリュームが既に最大音量まで高められている場合に、ユーザが音量を高めるためのコマンドを発話した場合、このコマンドを、音量を低くするコマンドに置換して実行すると、ユーザは発話したコマンドが音量を低下するコマンドとして誤認識されて実行されたと誤解してしまう可能性がある。このようなコマンドに関しては置換を実行しないことにより、ユーザの誤解を防ぐことができる。
【0026】
請求項4に記載のように、一方のコマンドによる操作が実行できない旨を報知する報知手段をさらに備えることが望ましい。これにより、音声認識手段の誤認識によって当該コマンドによる操作が実行できないのではなく、当該コマンドによる操作自体が実行できないことをユーザに通知することが可能となる。
【0027】
【発明の実施の形態】
(第1実施形態)
図1は、本発明の第1実施形態の全体構成を示すブロック図である。
【0028】
本実施形態における音声制御装置は、車両に搭載された制御対象機器の動作状態に基づいてユーザの発話を認識し、制御対象機器の音声による操作を行う。
【0029】
ECU4は、音声認識辞書1a、音声認識エンジン3、機器状態検出部4a、音声認識辞書切換部4b、認識結果決定部4c、機器操作信号発生部4d及び音声合成エンジン5から構成される。
【0030】
音声認識データとしての音声認識辞書1aは、ユーザが発話したコマンドを認識するためのコマンドデータを有し、エアコン2aやオーディオ2b等の制御対象機器2の各動作状態において、選択可能なコマンドからなる音声認識辞書を区分して記憶している。
【0031】
例えば、エアコン2aがオンの場合に利用される音声認識辞書には、エアコン2aをオフするためのコマンドは含まれるが、エアコン2aをオンするコマンドは含まれない。また、例えば、車両にナビゲーション装置が搭載されており、当該ナビゲーション装置を制御対象機器2のひとつとして制御する場合、当該ナビゲーション装置の画面が2D表示機能を実行している場合に利用される音声認識辞書には、これを3D表示に切り換えるためのコマンドは含まれるが、2D表示に切り換えるコマンドは含まれない。
【0032】
音声認識手段である音声認識エンジン3は、制御対象機器2の各動作状態において選択可能なコマンドからなる音声認識辞書を利用して、マイク6から入力されたユーザの発話と音声認識辞書に含まれるコマンドとの合致度を算出する。
【0033】
音声合成エンジン5は、ユーザによって入力された音声の認識結果をトークバックしたり、制御対象機器2に対する、音声による操作の結果を報知するための音声データを合成する。合成した音声データはスピーカ7へ出力され、ユーザに報知される。
【0034】
検出手段である機器状態検出部4aは、エアコン2aやオーディオ2b等の複数の制御対象機器2に接続されており、これらの動作状態を割り込み処理によって一定時間毎に検出する。検出方法としては、制御対象機器2の動作状態が変更されるたびに制御対象機器2から信号を出力させ、それをトリガとして制御対象機器2の動作状態の変更を検出するイベントドリブン方式を用いても良い。
【0035】
識別手段である音声認識辞書切換部4bは、機器状態検出部4aが制御対象機器2の動作状態を検出するたびに、これに連動して、その動作状態に対応する音声認識辞書の区分を選択し、その選択結果に基づいて音声認識辞書の切り換えを指示する。その際には、音声認識エンジン3に対して音声認識の中断および再開の指示も行う。
【0036】
なお、音声認識辞書の切り換えに関しては、制御対象機器2の動作状態を保持するコマンドが含まれず、かつ、制御対象機器2の動作状態を変更するコマンドが含まれる音声認識辞書に切り換えられる。例えば、エアコン2aがオンに切り換わった場合は、エアコン2aをオンするコマンドが含まれず、かつ、エアコン2aをオフするコマンドが含まれる音声認識辞書に切り換えられる。また、例えば、車両にナビゲーション装置が搭載されており、当該ナビゲーション装置を制御対象機器2のひとつとして制御する場合、当該ナビゲーション装置の画面が3D表示に切り換わった時は、これを3D表示に切り換えるコマンドは含まれず、かつ、2D表示に切り換えるコマンドが含まれる音声認識辞書に切り換えられる。
【0037】
認識結果決定部4cは、音声認識エンジン3からユーザの発話と音声認識辞書に含まれる各コマンドとの合致度を取得し、最も合致度の大きいコマンドを、ユーザの発話したコマンドとして決定する。
【0038】
機器操作信号発生部4dは、認識結果決定部4cが決定したコマンドを取得し、これに対応する機器操作信号を制御対象機器2へ出力する。制御対象機器2は、取得した機器操作信号に従って、動作状態の変更を行う。
【0039】
図2は、本実施形態の音声制御装置が、音声認識辞書を切り換えるフローチャートである。本フローチャートの処理は、一定時間が経過するごとに実行される。
【0040】
ステップ201では、エアコン2aやオーディオ2b等の制御対象機器2の動作状態を検出するとともに、前回検出した動作状態と今回検出した動作状態とに変化があるか否かを判別する。そして、動作状態が変化した場合には、ステップ202へ進む。
【0041】
ステップ202では、音声認識辞書の切り換えに先立ち、音声認識を中断する。これにより、音声認識辞書の切り換え中に音声認識が行われることを防止できる。なお、音声認識辞書の切り換え中に音声認識が行われると、音声の入力操作が複数のコマンドを発話することによってなされる場合、一貫性のない対応となったり、途中でコマンドが認識できなくなる等の問題が生じる。
【0042】
ステップ203では、検出した制御対象機器2の動作状態から、これに対応する区分の音声認識辞書を選定する。ステップ204では、選定された区分の音声認識辞書を用いて、音声認識辞書の切り換えを行う。
【0043】
ステップ205では、音声認識を再開する。すなわち、音声認識エンジン3は中断していた音声認識を再開する。これ以降、音声認識エンジン3は切り換えられた新たな音声認識辞書を用いて、音声認識を行う。
【0044】
なお、ECU4がイベントドリブン方式によって制御対象機器2の動作状態を検出する場合は、本フローチャートの処理は、制御対象機器2の動作状態変更の際に出力される信号をECU4が受け取るたびに、ステップ202から処理が開始される。
【0045】
図3は、本実施形態の音声制御装置が、ユーザの発話内容に応じて制御対象機器2の動作状態を変更するフローチャートである。
【0046】
ステップ301では、マイク6から入力したユーザの発話と、音声認識辞書に含まれる各コマンドとの合致度を算出する。ステップ302では、音声認識エンジン3が算出した合致度を取得し、最も合致度の大きい音声認識データに対応するコマンドを、ユーザの発話したコマンドであると決定する。
【0047】
ステップ303では、ステップ302にて決定したコマンドに対応する機器操作信号を制御対象機器2へ出力する。この結果、制御対象機器2は、その機器操作信号に従って動作状態を変更する。
【0048】
ステップ304では、制御対象機器2の動作状態が変更されたことをユーザに報知する音声データを作成する。この音声データはスピーカ7へ出力され、制御対象機器2の動作状態の変更をユーザに報知する。
【0049】
なお、制御対象機器2の動作状態が変更されたことをユーザに報知する方法としては、例えば図示しないナビゲーション装置の液晶ディスプレイ等にその旨の内容を表示する方法を用いてもよい。
【0050】
このように、本実施形態の音声制御装置は、制御対象機器2の動作状態を検出し、その動作状態において選択可能なコマンドからなる音声認識辞書を選定する。音声認識エンジン3は、ユーザの発話と音声認識辞書に含まれる各コマンドとの合致度を算出し、これが最も大きいコマンドを、ユーザの発話したコマンドとして認識する。これにより、ユーザの発話したコマンドが認識されたにもかかわらず、制御対象機器2の動作状態を変更することができない、といったことがなくなる。また、ユーザの発話したコマンドを誤って他のコマンドとして誤認識する機会も減少させることができ、音声操作におけるユーザの違和感や不快感を低減することができる。また、制御対象機器2の各動作状態において、選択可能なコマンドの音声認識辞書を区分することで、選択可能なコマンドを短時間で識別することも可能となる。
【0051】
次に、第1実施形態の変形例について説明する。
【0052】
図4は、本発明の第1実施形態の変形例における音声制御装置の全体構成を示すブロック図である。図4に示すように、本変形例では、上述の第1実施形態における音声認識辞書切換部4bに代えて、識別データ算出部4eを設けた点が第1実施形態と異なる。また、制御対象機器2の各動作状態に応じて音声認識辞書を区分しておらず、制御対象機器2を音声操作するための全てのコマンドを1つの音声認識辞書(全てのコマンドを含む1セットの辞書)1bに格納している。
【0053】
識別コード算出部4eは、機器状態検出部4aが制御対象機器2の動作状態の変化を検出するたびに、音声認識辞書1bに格納された、制御対象機器2の動作状態変化によって影響を受ける全てのコマンドの各々に対して識別コードを算出する。識別コードは0と1の2種類からなり、機器状態検出部4aが検出した動作状態において、選択可能なコマンドには1の識別コードが、選択不可能なコマンドには0の識別コードが付与される。
【0054】
音声認識エンジン3は、マイク6から入力されたユーザの発話と音声認識辞書に含まれる各コマンドとの合致度を算出する。合致度の算出は2段階で行われる。まず、マイク6から入力されたユーザの発話と音声認識辞書に含まれる各コマンドとの合致度が算出される。次に、算出された合致度に対して、識別コードの値を掛け算し、この結果を最終的な合致度とする。
【0055】
なお、その他の構成に関しては、前述の実施例と同様であるため、説明しない。
【0056】
図5は、本実施例の音声制御装置において、音声認識辞書の各コマンドに識別コードを付与するためのフローチャートである。本フローチャートの処理は、一定時間が経過するごとに実行される。
【0057】
ステップ501では、エアコン2aやオーディオ2b等の制御対象機器2の動作状態を検出するとともに、前回検出した動作状態から変化したか否かを判別する。
【0058】
ステップ502では、全てのコマンドの各々に関して、ステップ501にて検出した制御対象機器2の動作状態において、選択可能であるかどうかを判別する。そして、選択可能なコマンドについては、その識別コードを1とし、選択不可能なコマンドについては、その識別コードを0として算出する。ステップ503では、各コマンドへの識別コードの付与に先立ち、音声認識動作を中断する。
【0059】
ステップ504では、ステップ502で算出した識別コードが音声認識辞書に含まれる各コマンドに付与される。なお、既に前回の動作状態に応じた識別コードが各コマンドに付与されていた場合には、その識別コードを消去した後に、新たに今回の識別コードを付与する。
【0060】
ステップ505では、音声認識を再開する。すなわち、音声認識エンジン3は中断していた音声認識を再開する。これ以降、音声認識エンジン3は識別コード算出部4eによって算出された識別コードが付与されたコマンドからなる音声認識辞書を用いて、ユーザの発話との合致度を算出する。
【0061】
このように、本実施例の識別コード算出部4eは、制御対象機器2の動作状態が変更されるたびに、音声認識辞書1bに格納された、制御対象機器2の動作状態変化によって影響を受ける全てのコマンドの各々に対する識別コードを算出し、これを各コマンドに付与する。その際には、選択可能なコマンドの識別コードは1とし、選択不可能なコマンドの識別コードは0とする。
【0062】
例えば、エアコン2aがオンされた場合には、エアコン2aをオンするコマンドの識別コードは0に、エアコン2aをオフするコマンドの識別コードは1となるように付与される。また、例えば、車両にナビゲーション装置が搭載されており、当該ナビゲーション装置を制御対象機器2の一つとして本音声制御装置によって制御する場合において、当該ナビゲーション装置の画面が2D表示に切り換わった時には、これを2D表示に切り換えるコマンドの識別コードは0に、3D表示に切り換えるコマンドの識別コードは1となるように付与される。
【0063】
そして、ユーザの発話との合致度を算出する際には、この識別コードを合致度に掛け合わせるため、識別コードが0のコマンドは合致度が0となり、このようなコマンドがユーザの発話に対応するコマンドとして抽出されることを防止できる。そして、本変形例では、コマンドを重複して記憶する必要がないため、音声認識辞書の容量の低減を図ることが可能となる。
【0064】
(第2実施形態)
図6は、本発明の第2実施形態における全体構成を示すブロック図である。
【0065】
認識結果解析部4fは、音声認識辞書に格納された全てのコマンドに対して、誤認識されやすいコマンドを記載した誤認識リストを有している。そして、機器状態検出部4aが検出する制御対象機器2の動作状態における、各コマンドに対する識別コードを算出する。識別コードの内容については、前述の実施例と同様である。
【0066】
ユーザの発話内容であるコマンドの決定は、以下の手順で行われる。
【0067】
まず、認識結果解析部4fは、ユーザの発話と音声認識辞書に記載された各コマンドとの合致度を、音声認識エンジン3から取得する。次に、合致度が最も高いコマンドの識別コードを判別する。これが1である場合には、そのコマンドは制御対象機器2の動作状態において選択可能なコマンドであるため、これをユーザの発話したコマンドとして決定する。
【0068】
一方、合致度の最も高いコマンドの識別コードが0である場合には、そのコマンドの誤認識コマンドリストに記載されているコマンドについて、ユーザの発話との合致度が高い順に識別コードを判別する。識別コードが1であるコマンドがあった場合は、そのコマンドをユーザの発話したコマンドとして決定する。誤認識コマンドリストに記載されている全てのコマンドの識別コードが0である場合は、ユーザの発話との合致度が次に大きいコマンドを取り出して、上述の手順を繰り返す。ユーザの発話として決定されたコマンドは、機器操作信号発生部4dへ出力される。
【0069】
なお、その他の構成に関しては、第1実施形態と同様であるため、説明を省略する。
【0070】
図7は、本実施形態の音声制御装置が、ユーザの発話によって制御対象機器2の動作状態を変更するフローチャートである。
【0071】
ステップ701では、マイク6から入力したユーザの発話と、音声認識辞書に含まれる各コマンドとの合致度を算出する。ステップ702では、ステップ701で算出された合致度から、最も高い合致度を有するコマンドを特定する。
【0072】
ステップ703では、検出した制御対象機器2の動作状態において、ステップ702で特定したコマンドの識別コードを算出する。識別コードが1である場合には、そのコマンドは制御対象機器2の動作状態において選択可能であるため、ステップ708へ進む。そうでない場合は、ステップ704へ進む。
【0073】
ステップ704では、ステップ702で特定したコマンドに対応する誤認識コマンドリストから、ユーザの発話との合致度が最大のコマンドを選択する。具体例としては、誤認識コマンドリストには、当該コマンドによる操作と相反する操作を実行して制御対象機器の動作または機能を切り換えるコマンドを含むように構成される。例えば、制御対象機器2の動作や任意の機能をオンに切り換えるコマンドの誤認識コマンドリストには、当該動作や任意の機能をオフに切り換えるコマンドが含まれることとなる。また、動作や任意の機能をオフに切り換えるコマンドの誤認識コマンドリストには、当該動作や機能をオンに切り換えるコマンドが含まれることとなる。
【0074】
ステップ705では、ステップ703で検出した制御対象機器2の動作状態における、ステップ704で選択したコマンドの識別コードを算出する。識別コードが1である場合には、そのコマンドは制御対象機器2の動作状態において選択可能であるため、ステップ708へ進む。そうでない場合は、ステップ706へ進む。
【0075】
ステップ706では、誤認識コマンドリストに記載されている全てのコマンドについて、その識別コードを判別したかを判定する。全てのコマンドについて判別した場合は、ステップ707へ進む。そうでない場合は、ステップ712へ進み、誤認識コマンドリストからユーザの発話との合致度が次に大きいコマンドを選択して判定を繰り返す。
【0076】
ステップ707では、音声認識辞書に記載されている全てのコマンドについて、その識別コードを調べたかを判定する。全てのコマンドについて調べた場合は、ユーザの発話に該当するコマンドはないものとして、そのまま処理を終了する。そうでない場合は、ステップ711へ進み、ユーザの発話との合致度が次に大きいコマンドを選択して判定を繰り返す。
【0077】
ステップ708では、ステップ703もしくはステップ705で選択したコマンドが、ユーザの発話に対応するコマンドであると決定する。ステップ709では、ステップ708にて決定したコマンドに対応する機器操作信号を発生して、制御対象機器2の動作状態を変更する。
【0078】
ステップ710では、制御対象機器2の動作状態が変更されたことをユーザに報知する音声データを作成する。この音声データはスピーカ7へ出力され、制御対象機器2の動作状態の変更をユーザに報知する。
【0079】
このように、第2実施形態の音声制御装置は、ユーザの発話との合致度が最も高いコマンドが、制御対象機器2の動作状態において選択不可である場合には、これよりも合致度の低いコマンドや、当該コマンドの誤認識コマンドリストに記載されたコマンドを、ユーザの発話したコマンドとして決定する。そのため、ユーザは、自身が意図するコマンドが決定されるまで何度も発話を繰り返す必要がなくなり、音声操作における煩わしさが低減される。
【0080】
(第3実施形態)
次に、本発明の第3実施形態における音声制御装置について説明する。本実施形態の音声制御装置では、特に、相反する操作を実行する2つのコマンドによる、制御対象機器2の動作や各機能の変更に関するものである。
【0081】
本実施形態の音声認識辞書1bには、例えばオーディオの動作をオンまたはオフにするコマンドや、ナビゲーション装置における表示画面のオンまたはオフを行うコマンド等、制御対象機器2の動作または各機能において、相反する操作を実行する2つのコマンドが記憶されている。
【0082】
なお、このようなコマンド以外のコマンドに関しては、前述の実施形態と同様にして認識する。従って、相反する操作を実行する2つのコマンド以外の構成・動作に関しては、第2実施形態の音声制御装置の場合と同様であるため、説明しない。
【0083】
図8は、本発明の第3実施形態における音声制御装置が、ユーザの発話によって制御対象機器2の動作状態を変更する処理に関するフローチャートである。
【0084】
ステップ801では、マイク6から入力したユーザの発話と、音声認識辞書1bに含まれる各コマンドとの合致度を算出する。ステップ802では、ステップ801で算出された合致度から、最も高い合致度を有するコマンドを特定する。
【0085】
ステップ803では、制御対象機器2の動作状態を検出するとともに、ステップ802で特定されたコマンドの識別コードを算出する。識別コードが1である場合には、ステップ804へ進み、ステップ802で特定したコマンドをユーザの発話したコマンドとして決定する。一方、識別コードが0である場合には、ステップ805へ進み、ステップ802で特定したコマンドと相反するコマンドを読み出し、当該コマンドをユーザの発話したコマンドとして決定する。これにより、ユーザの発話したコマンドが誤認識された場合でも、当該コマンドを相反するコマンドに置換して実行することにより、ユーザの意図したコマンドを実行することが可能となるのである。
【0086】
ステップ806では、ステップ804またはステップ805において、ユーザの発話したコマンドとして決定されたコマンドに対応する機器操作信号を発生し、制御対象機器2の動作状態を変更する。ステップ807では、制御対象機器2の動作状態が変更されたことをユーザに通知する音声データを作成し、これをスピーカ7へ出力することにより、制御対象機器2の動作状態の変更をユーザに通知する。
【0087】
このように、本実施形態の音声制御装置では、制御対象機器2の動作状態に基づいて、認識されたコマンドまたは認識されたコマンドと相反するコマンドのいずれを実行するかを決定する。これにより、ユーザの発話したコマンドが誤認識された場合においても、ユーザの意図した動作を確実に実行することが可能となる。
【0088】
なお、ユーザの発話したコマンドが制御対象機器2の動作状態を多段階に変化させるコマンドであった場合には、当該コマンドの識別コードを1にすることにより、前述したコマンドの置換は行わない。これは、コマンドの置換を行った場合に引き起こされる、発話したコマンドの誤認識によって意図しない操作が行われたとユーザが誤解してしまうのを防止するためである。例えば、オーディオのボリュームが既に最大音量まで高められている場合に、ユーザが音量を高めるためのコマンドを発話した場合、当該コマンドを音量を低くするコマンドに置換すると、ユーザは発話したコマンドが音量を低くするコマンドとして誤認識されたと誤解する。制御対象機器2の動作状態を多段階に変化させるコマンドである場合には、コマンドの置換を行わないことにより、このようなユーザの誤解を防止することができるのである。
【0089】
以上説明した実施形態では、例えばオーディオの動作をオンまたはオフにするコマンドや、ナビゲーション装置における表示画面のオンまたはオフを行うコマンドに対して説明したが、これらコマンド以外の他のコマンドに対しても本発明は適用可能である。例えば、車両のライトの点灯/消灯を指示するためのコマンドや、音声にて移動制御可能な移動体に対し、移動体が停止中で後退不可能な状況にありそのような状況が検出可能な場合に、移動体の前進/後退を指示するためのコマンドなどである。
【0090】
また、制御対象機器としては、例えば、家電、OA機器、産業機器、携帯端末、等々が挙げられる。
【図面の簡単な説明】
【図1】本発明の第1実施形態における音声制御装置の全体構成を示すブロック図である。
【図2】第1実施形態の音声制御装置が、音声認識辞書を切り換えるフローチャートである。
【図3】第1実施形態の音声制御装置が、ユーザの発話に応じて制御対象機器の動作状態を変更するフローチャートである。
【図4】本発明の第1実施形態の変形例における全体構成を示すブロック図である。
【図5】第1実施形態の変形例としての音声制御装置が、音声認識辞書の各コマンドに識別コードを付与するフローチャートである。
【図6】本発明の第2実施形態における全体構成を示すブロック図である。
【図7】第2実施形態の音声制御装置が、ユーザの発話から制御対象機器の動作状態を変更するフローチャートである。
【図8】第3実施形態の音声制御装置が、ユーザの発話から制御対象機器の動作状態を変更する処理に関するフローチャートである。
【図9】従来技術において、使用者の発話に基づいてナビゲーションの設定変更を行う装置のブロック図である。
【符号の説明】
1a…メモリ、2…制御対象機器、2a…エアコン、2b…オーディオ、3…音声認識エンジン、4…ECU、4a…機器状態検出部、4b…音声認識辞書切換部、4c…認識結果決定部、4d…機器操作信号発生部、5…音声合成エンジン、6…マイク、7…スピーカ

Claims (4)

  1. ユーザの発話内容を認識し、その発話内容に応じた制御対象機器の操作を行う音声制御装置であって、
    発話されるべき複数のコマンドを音声認識データとして記憶する記憶手段と、
    前記記憶手段に記憶されている複数のコマンドを用いて、ユーザの発話内容をその中の1つのコマンドとして認識する音声認識手段と、
    前記制御対象機器の動作状態を検出する検出手段と、
    前記音声認識手段によって認識されたコマンドが、相反する操作を実行するための2種のコマンドの一方のコマンドであり、かつ前記検出手段によって検出された前記制御対象機器の動作状態においてその一方のコマンドが選択不可と判別した場合、前記音声認識手段によって認識されたコマンドを、前記2種のコマンドの他方のコマンドに置換する置換手段とを備えることを特徴とする音声制御装置。
  2. 前記相反する操作を実行するための2種のコマンドは、前記制御対象機器の動作または所定の機能をオンするためのコマンドとオフするためのコマンドであることを特徴とする請求項1に記載の音声制御装置。
  3. 前記相反する操作を実行するための2種のコマンドにより、前記制御対象機器の動作状態が多段階に変化するものである場合、前記音声認識手段によって認識されたコマンドが前記2種のコマンドの一方のコマンドであり、かつ前記検出手段によって検出された前記制御対象機器の動作状態においてその一方のコマンドが選択不可と判別された場合であっても、前記置換手段は、その一方のコマンドの置換を実行しないことを特徴とする請求項1に記載の音声制御装置。
  4. 前記一方のコマンドによる操作が実行できない旨を報知する報知手段をさらに備えることを特徴とする請求項3に記載の音声制御装置。
JP2003109283A 2002-06-28 2003-04-14 音声制御装置 Expired - Fee Related JP4363076B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003109283A JP4363076B2 (ja) 2002-06-28 2003-04-14 音声制御装置
US10/602,687 US7469211B2 (en) 2002-06-28 2003-06-25 Voice control system substituting the oppositely-working command in a pair if the recognized command is not selectable for the given system state

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002189481 2002-06-28
JP2003109283A JP4363076B2 (ja) 2002-06-28 2003-04-14 音声制御装置

Publications (2)

Publication Number Publication Date
JP2004086150A JP2004086150A (ja) 2004-03-18
JP4363076B2 true JP4363076B2 (ja) 2009-11-11

Family

ID=31497576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003109283A Expired - Fee Related JP4363076B2 (ja) 2002-06-28 2003-04-14 音声制御装置

Country Status (2)

Country Link
US (1) US7469211B2 (ja)
JP (1) JP4363076B2 (ja)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
JP2006215418A (ja) * 2005-02-07 2006-08-17 Nissan Motor Co Ltd 音声入力装置及び音声入力方法
JP4770374B2 (ja) * 2005-10-04 2011-09-14 株式会社デンソー 音声認識装置
US20070100990A1 (en) * 2005-11-01 2007-05-03 Brown William A Workflow decision management with workflow administration capacities
JP4855421B2 (ja) * 2005-12-14 2012-01-18 三菱電機株式会社 音声認識装置
KR100762636B1 (ko) * 2006-02-14 2007-10-01 삼성전자주식회사 네트워크 단말의 음성 검출 제어 시스템 및 방법
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
JP4997796B2 (ja) * 2006-03-13 2012-08-08 株式会社デンソー 音声認識装置、及びナビゲーションシステム
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
ATE456490T1 (de) * 2007-10-01 2010-02-15 Harman Becker Automotive Sys Sprachgesteuerte einstellung von fahrzeugteilen
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US20100250253A1 (en) * 2009-03-27 2010-09-30 Yangmin Shen Context aware, speech-controlled interface and system
US20110060588A1 (en) * 2009-09-10 2011-03-10 Weinberg Garrett L Method and System for Automatic Speech Recognition with Multiple Contexts
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8515763B2 (en) * 2009-11-24 2013-08-20 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
US9092394B2 (en) * 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification
WO2014000276A1 (en) * 2012-06-29 2014-01-03 Harman International (Shanghai) Management Co., Ltd. Control logic analyzer and method thereof
CN103034118A (zh) * 2012-12-23 2013-04-10 黑龙江工程学院 采用语音识别技术的无按键电子报时表
JP2014149457A (ja) * 2013-02-01 2014-08-21 Sharp Corp 音声認識装置、電子機器、および音声認識装置の制御プログラム
MY179900A (en) * 2013-08-29 2020-11-19 Panasonic Ip Corp America Speech recognition method and speech recognition apparatus
KR102274317B1 (ko) * 2013-10-08 2021-07-07 삼성전자주식회사 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치
US20160163314A1 (en) * 2013-11-25 2016-06-09 Mitsubishi Electric Corporation Dialog management system and dialog management method
US9550578B2 (en) 2014-02-04 2017-01-24 Honeywell International Inc. Systems and methods for utilizing voice commands onboard an aircraft
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2016205338A1 (en) * 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing interactions between users and applications
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
WO2017179335A1 (ja) * 2016-04-11 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
KR102663506B1 (ko) * 2018-05-23 2024-05-09 주식회사 엘지유플러스 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법
KR20200048701A (ko) 2018-10-30 2020-05-08 삼성전자주식회사 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
CN110444207A (zh) * 2019-08-06 2019-11-12 广州豫本草电子科技有限公司 基于衡通仪的智能响应控制方法、装置、介质及终端设备
KR20210045241A (ko) * 2019-10-16 2021-04-26 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 공유 방법
JP6703177B1 (ja) * 2019-11-11 2020-06-03 株式会社ブイキューブ 情報処理装置、情報処理方法及びプログラム
JP7229906B2 (ja) * 2019-12-06 2023-02-28 Tvs Regza株式会社 コマンド制御装置、制御方法および制御プログラム
JP7373386B2 (ja) * 2019-12-19 2023-11-02 東芝ライフスタイル株式会社 制御装置
CN112382279B (zh) * 2020-11-24 2021-09-14 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
KR20230060351A (ko) * 2021-10-27 2023-05-04 삼성전자주식회사 발화 수신에 기반한 목적 장치의 식별 방법 및 이를 위한 전자 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5787739A (en) * 1980-11-21 1982-06-01 Nissan Motor Co Ltd Audio operation device for motor car
US4501012A (en) 1980-11-17 1985-02-19 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5893099A (ja) * 1981-11-30 1983-06-02 株式会社日立製作所 音声認識回路
JPS59125335A (ja) * 1983-01-06 1984-07-19 Matsushita Electric Ind Co Ltd 加熱装置
JP3105930B2 (ja) * 1991-02-28 2000-11-06 株式会社リコー 音声認識装置
JPH05249989A (ja) 1992-03-06 1993-09-28 Nippondenso Co Ltd 音声認識制御装置
JP3675053B2 (ja) 1996-08-31 2005-07-27 株式会社エクォス・リサーチ 車両用音声認識装置
JP3825526B2 (ja) * 1997-03-31 2006-09-27 株式会社東芝 音声認識装置
JPH11237895A (ja) 1998-02-24 1999-08-31 Clarion Co Ltd 音声認識による制御装置及び方法、制御対象ユニット、音声認識による制御を用いるシステム並びに音声認識による制御用プログラムを記録した記録媒体
JP3624698B2 (ja) 1998-07-01 2005-03-02 株式会社デンソー 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
US6598016B1 (en) * 1998-10-20 2003-07-22 Tele Atlas North America, Inc. System for using speech recognition with map data
JP2000148177A (ja) * 1998-11-06 2000-05-26 Harness Syst Tech Res Ltd 車載用操作入力装置および入力方法
JP2000250588A (ja) 1999-03-03 2000-09-14 Toyota Motor Corp 車両用音声認識装置
JP4200607B2 (ja) * 1999-09-03 2008-12-24 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
JP3827058B2 (ja) * 2000-03-03 2006-09-27 アルパイン株式会社 音声対話装置
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
JP3567864B2 (ja) * 2000-07-21 2004-09-22 株式会社デンソー 音声認識装置及び記録媒体
JP3632607B2 (ja) * 2001-03-22 2005-03-23 トヨタ自動車株式会社 乗物の表現動作制御システム及び乗物のコミュニケーションシステム、表現動作を行う乗物
US7099829B2 (en) * 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information

Also Published As

Publication number Publication date
US7469211B2 (en) 2008-12-23
JP2004086150A (ja) 2004-03-18
US20040030560A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
JP4363076B2 (ja) 音声制御装置
JP3724461B2 (ja) 音声制御装置
US10706853B2 (en) Speech dialogue device and speech dialogue method
JP4131978B2 (ja) 音声認識機器制御装置
KR101601985B1 (ko) 지원 기능을 갖춘 차량 시스템 및 차량 시스템 작동 방법
US7167826B2 (en) Communication terminal controlled through touch screen or voice recognition and instruction executing method thereof
US20050261903A1 (en) Voice recognition device, voice recognition method, and computer product
RU2008126782A (ru) Терминал мобильной связи и способ управления его меню
JP2004510239A (ja) ディクテーションとコマンドの区別を向上させる方法
JP3702867B2 (ja) 音声制御装置
JP2003114698A (ja) コマンド受付装置及びプログラム
CN104423992A (zh) 显示器语音辨识的启动方法
US20170301349A1 (en) Speech recognition system
JP4056711B2 (ja) 音声認識装置
JP2001312297A (ja) 音声認識装置
JP2003195890A (ja) 音声操作装置
US11328725B2 (en) Apparatus and method for recognizing a voice in a vehicle
JP2009104025A (ja) 音声認識制御装置
JP2000250587A (ja) 音声認識装置及び音声認識翻訳装置
JP2001216130A (ja) 音声入力装置
KR100423495B1 (ko) 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
JPH08335094A (ja) 音声入力方法およびこの方法を実施する装置
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP2018091911A (ja) 音声対話システム及び音声対話方法
JPH11305790A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090728

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120828

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4363076

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130828

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees