JP2005513560A - 電気機器を音声制御する方法及び制御システム - Google Patents

電気機器を音声制御する方法及び制御システム Download PDF

Info

Publication number
JP2005513560A
JP2005513560A JP2003555496A JP2003555496A JP2005513560A JP 2005513560 A JP2005513560 A JP 2005513560A JP 2003555496 A JP2003555496 A JP 2003555496A JP 2003555496 A JP2003555496 A JP 2003555496A JP 2005513560 A JP2005513560 A JP 2005513560A
Authority
JP
Japan
Prior art keywords
command
sequence
instant
time
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003555496A
Other languages
English (en)
Inventor
シュタインビス,フォルカー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005513560A publication Critical patent/JP2005513560A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザの音声信号(S)が、コマンド又はコマンド列を認識する音声認識デバイスに供給する、電気機器を音声制御する、方法を開示する。音声認識デバイスによって認識されたコマンド又はコマンド列によって、電気機器の適切な動作(A)又は動作シーケンス(AS、AR)を行う。基準瞬間(tr)が音声信号(S)の発生及び/又は時間変動の関数として判定される。電気機器の動作(A)又は動作シーケンス(AS、AR)はその場合、基準瞬間(tr)と呼ばれる特定の瞬間において行われ、かつ/又は、動作パラメータ値が基準瞬間(tr)の関数として判定され、動作パラメータ値は動作(A)又は動作シーケンス(AS、AR)において用いられる。更に、適切な制御システムを開示する。

Description

本発明は、ユーザの音声信号がコマンド又はコマンド列を認識する音声認識デバイスに入力され、音声認識デバイスによって認識されたコマンド又はコマンド列によって、電気機器の適切な動作又は動作シーケンスが実施される、電気機器を音声制御する方法に関する。更に、本発明はそのような方法を行う音声制御システムに関する。
音声認識手法は音声コマンドを用いてユーザによって非常に広範囲にわたる電気機器を制御するのに非常に広範囲にわたる分野においてますます用いられてきている。現在既に標準的になっている典型的なアプリケーションは、無線、移動無線又はナビゲーション・システムのような、自動車における周辺電気機器のコントローラである。ここでは、音声コントローラが各電気機器のハンズフリー操作を可能にし、したがって、自動車の運転手が電気機器を制御し得、同時に悪影響なく自動車を制御するよう自らの手を使い続けることが可能であるという効果自体は特に著しいものである。更に、そのようなコントローラは例えば、自らの動きにおいて、大いに制限され、したがって、制御の手段として利用可能なものが自らの音声のみである個人にとっては特に便益をもたらすものである。音声コントローラは、更に、キーボードなどが用いられる方法とは違うものとして、ユーザ・インタフェースが主たるヒューマン・コミュニケーション手段、すなわち、音声、に形成されるという汎用的利点を有する。更に、音声コントローラに対する音声コマンドは各電気機器に無線で送信されるので、効果が電気機器を極めて自然な、(すなわち、概して、追加費用無しで実現可能な、)近距離での遠隔制御に対して得られる。日常生活においてなお一層多く用いられる電気機器、例えば、台所用品又は娯楽用電子デバイス、はしたがって更に一般に、音声コントローラを備える。この関係で、音声制御は、例えば、ビデオ・レコーダ又はテレビ、のような個々の電気機器の場合においてのみならず、だいたいにおいて電子的に制御可能な如何なるデバイスの場合においてでも可能である。特に、如何なる、複雑な電気機器システム、例えば、ネットワークされた家庭用又はオフィス用電子システム、も又、それによって制御され得る。同様に、音声制御によってコンピュータを介してインターネットを「サーフ」し得る。したがって、本明細書及び特許請求の範囲において用いられる「appliance」の語はこれに関連して包括的に解釈されるものであるということを明確に示す。
音声コントローラの場合、ユーザによって発音されるコマンド又はコマンド列は通常、マイクロフォンによって、音声信号として検出される。そのような音声信号は更に音声認識デバイスに渡され、該音声認識デバイスは該コマンド又はコマンド列を各電気機器の制御デバイスに、該音声認識デバイスが、入力された音声信号からの該コマンド又はコマンド列を、認識したら直ぐに、渡す。該制御デバイスは更に、所望の方法で電気機器の各構成部分を制御するのでユーザによって与えられたコマンドはできるだけ速く行われる。音声制御信号の全ての成分は非常に速く動作するが、特定の時間遅延はしかしながら常に、ユーザによるコマンドの発音と電気機器による実行との間では不可避である。音声認識における多くの場合に時間遅延の最大部分がこの関係で生ずるが、それは、例えば、特定の時間間隔が、コマンドが実際に完了したか、なお続いているかを確実に明らかにするのに、必要であるからである。したがって、例えば、「チャネル20」のコマンドを認識した後、入力「2」が後に続いて、全体での結果としてコマンド「22」をユーザが所望するという結果を生じる、ことがないことを徹底することが必要である。この関係で、コマンドの発音及び実行間の時間間隔は、不都合にも、正確に規定されていないが、それは音声認識デバイス自体がコマンドを認識するのに全く同じコマンドに対して同様な時間を常に必要とするものでないからである。したがって、コマンド自体に加えて、多くの別のパラメータ、例えば、音声信号の入力中の(又は更に複雑なシステムの場合、同時に複数のコンピュータ動作を実行し得るものの)背景雑音成分はシステムを実際にロードすることとコマンドを認識するのに必要な時間とを左右する。そのような音声制御システムの時間応答は、一方、不都合であるが、それは異なる遅延時間がユーザを不確かにさせることをもたらし得るからである。例えば、認識時間がいくぶん長い場合、ユーザはコマンドがいったい受信されたのかはっきりとは知らないことがある。これによってユーザがむだにコマンドを繰り返し入力する結果をもたらし得る。別の不利益は更に、特に、コマンドが、時間応答がクリティカルな電気機器について、関係する場合、現れる。この典型的な例は特定の位置で、例えば、特定の映像で、オーディオ又は映像機器の進行を正確に停止することがある。
この問題を回避する1つの方法としてコマンドの認識を加速することがある。コマンドの比較的簡単でしたがってコマンドの速い認識が特に、開示されているものがある(特許文献1参照。)。この場合、完全な音声認識ではなく音声文又は音声コマンドからの時間パターンによって特徴付けられた測定信号を生成することが企図されていて、該時間パターンは信号の音が持続している期間又は一時停止が持続している期間に関係する。測定信号のそのような時間パターンは更に、パターン信号の時間パターンと比較され、該時間パターンが一致する場合、パターン信号に相当する制御信号が更に生成される。しかしながら、この方法は非常に限定された量の音声コマンドを有する簡単な音声コントローラに限定され、それはしたがって時間パターンに対して相当異なるはずである。他の点においては、認識時間においてはっきりわかる削減があっても、なお、コマンドが入力された場合に、認識時間が変動して上記の問題を結果として生じるということを常に確認し得ない。
独国特許出願公開第4103913号明細書
本発明の目的は上記の問題を回避する、この先行技術に対する、代替策を設けることにある。
この目的は、音声信号の発生及び/又は時間変動によって、基準瞬間が判定されること、並びに、電気機器の動作又は動作シーケンスが基準瞬間に対する特定時間スキームで行われること、及び/又は、基準瞬間によって、動作又は動作シーケンス中に用いられる動作パラメータ値が判定されることによって実現される。
更に、この目的は、そのような基準瞬間を判定する、検出音声信号に対する、解析デバイスを有し、電気機器の動作又は動作シーケンスが基準瞬間に対する特定の時間スキームにおいて行われるように制御デバイスが電気機器を起動し、かつ/又は、制御デバイスが動作パラメータ値を基準瞬間の関数として判定し、電気機器を起動するのに該動作パラメータ値を用いる、適切な音声制御システムによって実現される。
音声制御システムは同時に、電気機器自体の構成部分であり得る。しかしながら、更に複雑なシステム内部の該電気機器又は複数もの電気機器の手前に接続され、制御する個々の電気機器又は別のシステム構成部分に対して制御コマンドを発出するだけの別個の音声制御システムが関係し得る。
本特許請求の範囲は本発明の特に好適な実施例及び展開例を有する。
基準瞬間を判定するのに必要な解析は実際の音声認識と、無関係に、又は、従属して、行われる。これに関連して、音声制御システムは、最も簡単な場合においては、例えば、音声信号の開始及び/又は終了のみ、を検出する比較的原始的な別の解析デバイスのみを必要とする。一方、更に正確な解析が基準瞬間の判定において所望される場合、解析デバイスは等しく複雑な設計のものでなければならず、その場合には解析デバイスとして、付随して、音声認識デバイス又は音声認識デバイスの一部を、適切な基準瞬間を設定するよう、用いることが適切であり得る。そのような場合においては、解析デバイスとして用いられる音声認識デバイスが、基準瞬間を判定するよう、解析結果を、できるだけ早く、認識コマンド又はコマンド列が供給された場合だけでなく、供給する場合、特に効果的である。
本発明によれば、電気機器の動作又は動作シーケンスは更に、上記基準瞬間に対する特定の時間スキームで(例えば、特定の瞬間から)行われる。その代わりに、又は、更に、動作パラメータ値が基準瞬間の関数として判定され、更に、動作又は動作シーケンス中に用いられる。そのような動作パラメータは、例えば、前方送り/巻き戻し機能付きビデオ・レコーダ、のような、電気機器における特定の巻き戻し時間であり得る。そのような動作パラメータは、しかしながら、更に、ユーザ時間指定、例えば、「後5分」、のようなコマンド、から、基準瞬間に参照されるユーザの時間指定による基準時間間隔の計算を考慮して、計算される時間であってもよい。
(検出音声信号に参照される)時間において絶対的に固定された基準瞬間を設定し、(該基準瞬間に参照される)特定の時間スキーム内で後続する動作又は動作シーケンスを実行することによって、ユーザにとって認識可能な時間と電気機器又は音声制御システムがコマンドを実行しなければならない時間とが、事実上常に同様なもので、各々の場合に、音声認識器がどれくらい速くコマンド又はコマンド列を音声信号から抽出することができたかに左右されないものであることを徹底する。ユーザはしたがって、電気機器の時間応答に対する感覚を自動的に得ることができ、異なる認識時間によって混乱させられることはない。動作パラメータ値を各基準瞬間の関数として判定することによって、時間応答が決定的なコマンドの場合においては、コマンドの発声と実行との間の時間遅延に対して補償することをも可能にする。
音声信号の期間内の広範囲にわたる種々の瞬間が基準瞬間として適切である。特に容易に設定し得る基準瞬間は、例えば、音声信号の開始又は終了である。これらは簡単な音声活動検出器によって非常に速く検出し得る。
同様に、音声信号における特定の特徴的特性の発生の瞬間を基準瞬間として選定することが考えられる。そのような特徴的特性は、音声信号の特定の音素又は一部の開始及び/若しくは終了の助力によって、判定し得ることが好適である。これに関連して、最も簡単な場合、複数の部分を有する音声信号の音素又は一部の開始及び/若しくは終了自体は基準瞬間としての役目を担い得る。しかしながら、更に、複雑なアルゴリズムを用い、例えば、特定の音素又は部分の開始と終了との間の平均時間値を基準瞬間として選択することが考えられる。
その場合においては、基準瞬間は特定のコマンドにおいて、該コマンドが入力された場合、同じ基準瞬間が常に選択されるように、できるだけ簡単に、かつ、正確に、検出し得るように、選択されることが好適である。典型的で、非常に容易に記録可能な、特徴的特性は、例えば、コマンド「TV now」における母音「e」の開始である。
好適実施例においては、電気機器は、該電気機器の動作又は動作シーケンスが開始する該電気機器の動作瞬間が基準瞬間に対して特定の時間間隔(すなわち、規定遅延時間)を有するように、制御される。
別の好適実施例においては、時間スキームは常にコマンド入力に従属する。したがって、例えば、遅延時間は常に、電気機器のスイッチをオン状態にする場合に正確に1秒に調節し得る一方、停止コマンド、特に、例えば、緊急停止、の場合、時間スキームは、電気機器が停止コマンドを認識した直後に停止するように、選択される。
時間スキームは更に、コマンドが最小時間と最大時間との間の特定の時間間隔内で実行されなければならないように選択し得る。その場合、動作又は動作シーケンスは早くて、例えば、1秒の最小時間の経過後に行われる。信号の認識がその時まで可能でない場合、コマンドは認識信号の受信直後に実行される。最大時間を超過した後、例えば1.5秒後、音声制御信号は処理を中止し、ユーザに対して適切な信号、例えば、「コマンド認識不能」メッセージ、が与えられる。
時間スキームは、通常条件下で、考えられるコマンド又はコマンド列の認識が、電気機器の動作又は動作シーケンスが、所定の時間の経過後に、極めて正確な精度で開始するよう、固定された遅延時間又は最小時間内で可能である、よう選択されることが好適である。
該システムが、コマンド又はコマンド列が認識される前に所定の瞬間が既に経過したことを、認識する場合、そのような状態を将来回避する種々の可能性が存在する。1つの可能性は時間スキームを変更し、例えば、あらかじめ設定された遅延時間又は最小時間を増加することがある。別の可能性としては、可能な限り、音声認識ユニット及び/又はシステム資源のパラメータを、認識を次回はもっと速く行うよう、変更することがある。
更に、所定の瞬間の満了が迫っている場合、システムは認識結果を直ちに得るよう音声認識ユニットの種々の既に設定された仮説の下での決定を強制し得る。所定の瞬間が認識結果によって、更に、その結果、各仮説によって、変わってくる場合、システムはそれに応じて仮説の1つに対する瞬間が経過すると直ぐに応答し得る。
好適実施例においては、本特許請求の範囲による電気機器の動作瞬間までの時間間隔はユーザに対する信号受信確認の供給によって埋められる。そのような信号受信確認は、可聴信号、又は、例えば、発光ダイオードなどの点灯のような、可視信号、であり得る。同時に、該信号受信確認は正確に規定された時間スキームにおいて供給される。
そのような信号受信確認の供給は、特に、遅延時間が、コマンドの認識に利用可能な計算時間を十分有するよう、比較的長くなっている場合、適切である。そのような、音声コマンドの発声後及びその実行前にユーザによって予測できる、受信確認によって、ユーザに好印象をもたらすが、それはユーザがそれによって、自らの音声コマンドが何かを直ちに成し遂げる、すなわち、電気機器又は音声コントローラが自らの音声コマンドに対して実行状態にある、ことを見出すからである。
この目的で、音声制御システムは通知デバイスを、ユーザに対して信号受信確認を供給するのに、必要とし、制御デバイスは、それに応じて、当該要件によって通知デバイスを起動するよう設計されていなければならない。
特に好適な実施例においては、所望の動作瞬間は最初に、基準瞬間に対して規定される。そのような所望の動作瞬間はユーザが所望する動作が行われる瞬間である。この典型例は、非常に正確に規定された瞬間、すなわち、非常に特定された映像、でのビデオ・レコーダ又はDVD(ディジタル多用途ディスク)レコーダの停止がある。ユーザが該映像を認識すると直ぐに、ユーザは音声コマンド「停止」を表し、レコーダが該映像で正確に停止することを当てにする。
これに関連して、基準瞬間自体は原則として所望の動作瞬間として、特に、検出音声信号の開始が基準瞬間として選択された場合に、規定し得る。しかしながら、ユーザ自体の反応時間が基準瞬間に対する所望の動作瞬間の規定において考慮されることが好適である。この目的で、例えば、基準瞬間前の瞬間が所望の動作瞬間として選択され、所望の動作瞬間と基準瞬間との間の間隔が平均ユーザ反応時間、例えば0.2秒、に等しい。
電気機器の規定された所望の動作瞬間と全くの実際の動作瞬間との間の「反応時間」が判定される。ユーザ反応時間が考慮されるので、これはユーザ、音声制御システム、及び電気機器を有するシステム全体の総反応時間である。電気機器の、行われる動作又は動作シーケンスに対する、動作パラメータ値は更に、該反応時間から判定され、該反応時間は再び、該動作パラメータ値を用いて動作又は動作シーケンスを行うのに補償される。
この方法は、特に、前方送り及び/又は後方送り機能のあるメディア入力及び/又は出力ユニットを有する全ての電気機器について適している。上記のビデオ・レコーダ又はDVDレコーダに加えて、そのような電気機器は更に、テープ・レコーダ、CD(コンパクト・ディスク)プレイヤ、又は、ユーザに対して時系列で可視的並びに/若しくは可聴的にデータ列を出力し得、かつ/又は、例えば、フィルム・カメラ、のように、ユーザが同様にデータを入力し得る、他の所望の電気機器のような、電気機器を有する。これらの電気機器は、その結果、更に、例えば、インターネットを介して、又は、メモリから、例えば、ハード・ディスクから、又は、ディスケット・ドライブから、若しくは、DVDディスクから、一連の講義用トランスペアレンシ、サーチ・リストなどを、ユーザに対して、出力し、ユーザが極めて正確な精度で該出力を停止する可能性を有する、適切なソフトウェアを有する、コンピュータ又は類似した電気機器を有する。
概して、そのようなメディア入力及び/又は出力ユニットにおいては、前方送り及び/又は後方送り機能によって、所望の点、すなわち、特定のデータ群、又は、例えば、映像、に達することが可能である。これに関連して、通常、種々の速度で前方送り又は後方送りを行う可能性があり、前方送り又は後方送りは、種々のモードにおいて、データを出力したり、データをユーザに対して他のモード(サーチ又は単純再生)で表示したりすることなく、行われる。そのような電気機器の場合、後方送り値又は前方送り値は、停止コマンドが前方送り又は後方送り中に電気機器を停止するよう行われるかによって判定される反応時間から動作パラメータとして、判定し得る。特定の動作瞬間では、メディア入力及び/又は出力ユニットはその場合、最初に動作シーケンスにおいて停止され、反応時間が補償されるよう判定された後方送り値又は前方送り値によって、再び後方に戻されるか、前方に進められる。
当該方法は原則として、単にソフトウェアによって、コンピュータ・プログラムを用いて、例えば、適切なコンピュータ上の適切なソフトウェア・モジュールによって、行い得る。その場合、音声認識デバイスはソフトウェアの音声認識モジュールによって形成し得、制御デバイスはソフトウェアの制御モジュールによって、形成し得る。同様に、音声出力デバイスはTTS(テキスト音声変換)モジュールによって実施し得る。対話制御モジュールはユーザとの対話を制御するようコンピュータ上でインストールし得る。全てのこれらのモジュールはその場合、適切な方法で、例えば、本発明による方法に従って相互作用するようサブルーチン及び主ルーチンとして、お互いに結合されなければならない。コンピュータは、当然、ユーザの音声信号を検出するのに適切なデバイス、例えば、マイクロフォン、に接続されなければならない。
これに関連して、種々のソフトウェア・モジュールを更に、個々のコンピュータにおいてではなく、種々の相互にネットワーク化されたコンピュータにおいて、インストールし得る。したがって、例えば、第1コンピュータは制御モジュール及び対話制御モジュールを有し得、第2コンピュータにおいては、必要な場合、比較的計算量の多い自動音声認識が行われる。
本発明のこれら及び他の特徴は、以下に開示する実施例によって、わかるものであり、説明されるものである。
図においては、音声信号Sの発生の期間、更には、電気機器の動作A又は動作シーケンスAS、AR、の期間が時間tに対して表される。当該実施例においては、音声信号は常に、瞬間t1から開始し、瞬間t2で終了する。
最初の2つの図に表す実施例は各々の場合、テレビ・セットの音声コントローラである。
図1は当該方法の第1変形例を表し、音声コマンドSはテレビ・セットのスイッチをオン状態にするコマンドで、この場合は、単語列「TV(テレビを)on(オン状態にする)」である。音声信号Sはしたがって、2つの単語「TV」及び「on」に相当する2つの信号部分を有する。特定の、音声信号Sの第2部分における、すなわち、単語「on」における、容易に検出可能な特徴が基準瞬間trとして選択されている。特定の場合、単語「on」における母音「o」の終了がこれに関連した基準点である。
音声信号Sが検出されると直ぐに、それは音声認識デバイスに渡され、該デバイスは更に、そこで伝達されたコマンド又はコマンド列を認識するよう、解析される。コマンド列「TV on」は更に制御デバイスに渡され、該デバイスはテレビ・セットのスイッチをオン状態にする。このスイッチをオン状態にする動作Aは、しかしながら、音声認識デバイスによるコマンド列の認識の直後ではなく、基準瞬間trに対する固定時間間隔Δaにある規定動作瞬間taでのみ、行われる。動作Aはしたがって、常に、ユーザが単語「on」における「o」を発声した後の固定遅延時間Δa後の認識の持続時間に無関係に行われる。これに関連して、基準瞬間trと動作瞬間taとの間の遅延時間Δaは音声認識デバイスが音声信号Sにおいてコマンド列を認識できるのに十分長いとみなすものとする。
図2は当該方法の変形例を表す。この場合、スイッチをオン状態にするコマンドは1つの単語、すなわち、単語「on」、を有するコマンドである。したがって、今度もまた、瞬間t1から開始し、瞬間t2で終了する、単一部分を有する音声信号Sが関係する。この場合、音声信号Sの終了が単に、基準瞬間trとして選択される。この1つの単語のコマンド「on」は音声信号及び基準瞬間の別の例を表す理由だけで図2において選択される。本発明は、特定のコマンドに無関係であり、図2による例示的実施例においては、コマンド「TV on」を同様な方法で用いてよく、又は、コマンド「on」などを図1による例示的実施例において用いてよい。
図1による場合においては、音声信号Sが音声認識システムに供給され、更に、動作A、すなわち、テレビ・セットがオン状態にされること、が正確に規定された遅延時間Δa後の動作瞬間taに行われる。しかしながら、図1による実施例から逸脱して、基準瞬間trと動作瞬間taとの間の遅延時間Δaは、ユーザに供給される、始動信号Bによって埋められる。該始動信号Bは更に、基準瞬間trの関数として正確にあらかじめ判定された時間スキームによって供給される。本例示的実施例においては、発光ダイオードが正確にあらかじめ判定された第1時間間隔Δ1後の瞬間tbでスイッチがオン状態にされ、発光ダイオードは正確に規定された第2時間間隔Δbの間点灯し、規定動作瞬間ta前の正確に規定された第3時間間隔Δ2後に再び、スイッチがオフ状態にされる。第1及び第3時間間隔Δ1、Δ2は各々、例えば、0.2秒、であり得る。
言うまでもなく、更に、該時間間隔Δ1、Δ2を変更し、例えば、動作瞬間taに達するまで始動信号Bを表示する、すなわち、第2時間間隔Δ2をゼロに設定する、ことが可能である。所望の動作Aの開始前、すなわち、動作瞬間ta前、に始動信号Bをオフ状態にすることは、しかしながら、特に、始動信号が可視信号ではなく、ピーピーという音のような、可聴信号の場合、かつ、基準瞬間trと動作瞬間taとの間の総時間間隔、すなわち、遅延時間Δa、が長い場合、ご都合主義的なものになる。この場合、長く持続する可聴始動Bはおそらくユーザをいらいらさせるものである。短い、例えば、基準瞬間trと動作瞬間taとの間の総時間間隔Δaのおおよそ中間点における、可聴信号は、一方で、とまどうほどでないことが見出されている。言うまでもなく、更に、正確にあらかじめ判定された期間で複数の始動信号を発出する、例えば、動作瞬間taに最終的に達するまで、数回始動信号を繰り返す、ことが考えられる。同様にして、更に、可聴及び可視又は他の始動信号を組み合わせることが考えられる。
最後に、図3は、所望の動作瞬間tsと本当の動作瞬間taとの間の反応時間Δrが今度も又、電気機器の規定動作シーケンスAS、ARによって補償される、本発明の別の変形例を表す。当該ケースはビデオ・レコーダを映像での正確性で停止させることに関係する。
所望の動作瞬間tsで、ユーザは映像Pを見て、この位置でビデオ・レコーダを停止させたいものとする。特定のユーザ反応時間Δu、例えば、0.2秒、の後、ユーザは瞬間t1でコマンド「stop(停止)」を発声する。音声信号Sは更に、所望の動作瞬間tsより遅い、瞬間t1から開始し、瞬間t2で終了する。この例では、音声信号の開始、すなわち瞬間t1、がt1とt2とが同一になるよう、基準瞬間trとしてとられる。しかしながら、如何なる他の所望の基準瞬間trをも選択し得る。
図1及び図2による実施例においては、音声信号Sは更に、音声認識デバイスにおいて解析され、コマンド「stop」がこの処理において認識される。基準瞬間trに後続する正確に規定された遅延時間Δa後、電気機器は最後に、動作瞬間taで停止される。
図3からは、一方では、ユーザ反応時間Δuにより、他方では、基準瞬間trと動作瞬間taとの間の設定遅延時間Δaによる、本当の実際の動作瞬間taと電気機器がそれ自体で停止すべき所望の動作瞬間tsとの間の、感知できる時間差があることが明らかである。この、ユーザ、音声認識システム及び電気機器を有する、システム全体の「総反応時間」Δrの間に、電気機器は時間中ずっと前方送りモードVにある。すなわち、電気機器はユーザによって所望されたものからは完全に異なった映像での動作瞬間taで停止する。
反応瞬間Δrは、しかしながら、基準瞬間trの助力によって計算し得る(この場合は、しかしながら、ユーザ反応時間Δuを種々の普通のユーザに対する平均としてのみ、とり得る)ので、反応時間Δrから、ビデオテープが、ユーザによって所望される映像Pを有する位置に達するよう、後方に送られなければならない、後方送り値WRを判定することが考えられる。
該後方送り値WRはレコーダにおけるビデオテープが特定の速度で後方に送られなければならない時間であり得る。それは、しかしながら、更にテープ長仕様又は類似したパラメータであり得る。DVDレコーダ又はCDプレイヤの場合、データ媒体の正確な位置は、付随的に、更に、パラメータとして判定し得、該正確な位置はその場合、行き先として到達される。
図3による実施例においては、レコーダはしたがって、単に動作瞬間taで停止されることはなく、電気機器の停止動作AS及び直後の後方送り動作ARを有する、動作シーケンスAS、ARが始動されて、電気機器が、実際にユーザの所望する位置、すなわち、映像P、に、動作シーケンスAS、ARの終わりに、くるようになる。
本発明はしたがって、一方で、電気機器を制御するユーザ経験を改善するがそれはユーザが直観的にそれに対する印象を、短い時間の後にも、電気機器が正確に動作する場合と、音声制御システムにおいて、特に認識の問題などにおいて、問題が発生した場合との、期間の予測可能性の結果として、受けるからである。例えば、メディア入力及び/又は出力の極めて正確な停止の場合、のような、特別な場合、電気機器の遅延時間、更には、所望の場合、ユーザ自体の反応時間を補償することも、本発明の助力によって、考えられる。
基準瞬間と動作瞬間との間の固定遅延時間を設定する音声コマンドの発声から実行までの期間の図である。 図1のようではあるが、基準瞬間と動作瞬間との間の遅延時間が始動信号によって埋められる、期間の図である。 ビデオ・レコーダの映像での正確な停止の場合の期間の図である。

Claims (11)

  1. 電気機器を音声制御する方法であって、ユーザの音声信号がコマンド又はコマンド列を認識する音声認識デバイスに入力され、該音声認識デバイスによって認識された該コマンド又はコマンド列によって、該電気機器の適切な動作又は動作シーケンスが始動され、該音声信号の発生及び/又は時間変動によって、基準瞬間が判定され、該電気機器の動作シーケンスの前記動作が該基準瞬間に対する特定の時間スキームにおいて行われ、かつ/又は、該基準瞬間によって、前記動作又は動作シーケンスの間に用いられる動作パラメータ値が判定されることを特徴とする方法。
  2. 請求項1記載の方法であって、前記音声信号の開始及び終了が基準瞬間として設定されることを特徴とする方法。
  3. 請求項1記載の方法であって、前記音声信号における特定の特徴的特性の発生の瞬間が基準瞬間として設定されることを特徴とする方法。
  4. 請求項3記載の方法であって、前記特徴的特性が、前記音声信号の特定の音素の開始並びに/若しくは終了、及び/又は、複数の部分を有する音声信号の特定部分の開始並びに/若しくは終了、の助力によって判定されることを特徴とする方法。
  5. 請求項1乃至4何れか記載の方法であって、前記電気機器の、該電気機器の前記動作又は動作シーケンスが開始する、動作瞬間が、前記基準瞬間に対する規定時間間隔を有することを特徴とする方法。
  6. 請求項1乃至5何れか記載の方法であって、前記電気機器の、該電気機器の前記動作又は動作シーケンスが開始する、動作瞬間、までの時間間隔が、ユーザに対する信号受信確認の供給によって埋められ、該信号受信確認が前記基準瞬間後の規定瞬間から開始することを特徴とする方法。
  7. 請求項1乃至6何れか記載の方法であって、反応時間は、前記基準瞬間に対して規定された所望の動作瞬間と、前記電気機器の、前記動作又は動作シーケンスが開始する、全くの実際の動作瞬間との、間で判定され、該電気機器の、行われる、該動作又は動作シーケンスは、該判定反応時間から判定され、該動作又は動作シーケンスの実行中に、該反応時間が前記動作パラメータ値を使用することに対して補償されることを特徴とする方法。
  8. 請求項7記載の方法であって、前記音声信号を供給する前記ユーザのユーザ反応時間が前記基準瞬間に対する前記所望の動作瞬間の前記規定において考慮されることを特徴とする方法。
  9. 請求項7又は8記載の方法であって、前記電気機器は前方送り及び/又は後方送り機能を有するメディア入力/出力ユニットを有し、該メディア入力及び/又は出力ユニットに対する停止コマンドを有する音声信号が入力された場合、後方送り値又は前方送り値が動作パラメータ値として前記判定反応時間から判定され、該メディア入力及び/又は出力ユニットは動作シーケンスにおける動作瞬間で停止し、前記判定後方送り値又は前方送り値によって後方に送られるか、再び先方に送られることを特徴とする方法。
  10. 請求項1乃至9何れか記載の方法を行う音声制御システムであって:
    音声信号を検出する手段;
    該音声信号を解析してコマンド又はコマンド列を認識する音声認識デバイス;及び
    前記電気機器を、該音声認識デバイスによって認識された該コマンド又はコマンド列
    の関連で、該電気機器が該コマンド又は該コマンド列に相当する動作又は動作シーケンスを行うよう、制御する制御デバイス;
    を有し、更に:
    音声信号を解析するデバイス;
    を有し、該音声信号を解析するデバイスは、該音声信号の発生及び/又は時間変動の関数として基準瞬間を判定し、該制御デバイスが該電気機器を起動するよう設計されていて、該電気機器の該動作又は動作シーケンスが該基準瞬間と呼ばれる特定の時間スキームにおいて行われ、かつ/又は、該制御デバイスが動作パラメータ値を該基準瞬間の関数として判定し、該電気機器を起動するのに該動作パラメータ値を用いることを特徴とする音声制御システム。
  11. コンピュータ・プログラムであって、該コンピュータ・プログラムがコンピュータ上で実行された場合:
    請求項1乃至9何れか記載の方法の工程全てを実行するプログラム・コード手段;
    を有することを特徴とするコンピュータ・プログラム。
JP2003555496A 2001-12-21 2002-12-16 電気機器を音声制御する方法及び制御システム Pending JP2005513560A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10163214A DE10163214A1 (de) 2001-12-21 2001-12-21 Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
PCT/IB2002/005466 WO2003054858A1 (en) 2001-12-21 2002-12-16 Method and control system for the voice control of an appliance

Publications (1)

Publication Number Publication Date
JP2005513560A true JP2005513560A (ja) 2005-05-12

Family

ID=7710343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003555496A Pending JP2005513560A (ja) 2001-12-21 2002-12-16 電気機器を音声制御する方法及び制御システム

Country Status (6)

Country Link
US (1) US20050071169A1 (ja)
EP (1) EP1459295A1 (ja)
JP (1) JP2005513560A (ja)
AU (1) AU2002366898A1 (ja)
DE (1) DE10163214A1 (ja)
WO (1) WO2003054858A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022015545A (ja) * 2020-07-09 2022-01-21 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050071170A1 (en) * 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
EP2495212A3 (en) * 2005-07-22 2012-10-31 QUALCOMM MEMS Technologies, Inc. Mems devices having support structures and methods of fabricating the same
US8521537B2 (en) 2006-04-03 2013-08-27 Promptu Systems Corporation Detection and use of acoustic signal quality indicators
US7933619B2 (en) * 2007-10-02 2011-04-26 Airvana, Corp. Wireless control of access points
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
US20220165291A1 (en) * 2020-11-20 2022-05-26 Samsung Electronics Co., Ltd. Electronic apparatus, control method thereof and electronic system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
WO1998052667A2 (en) * 1997-05-19 1998-11-26 Creator Ltd. Programmable assembly toy
DE59803137D1 (de) * 1997-06-06 2002-03-28 Bsh Bosch Siemens Hausgeraete Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät
JPH11249692A (ja) * 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
EP1586980B1 (en) * 1998-03-18 2007-07-04 Nippon Telegraph and Telephone Corporation Wearable communication device for inputting commands via detection of tapping shocks or vibration of fingertips
TW495710B (en) * 1998-10-15 2002-07-21 Primax Electronics Ltd Voice control module for control of game controller
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
US20030093281A1 (en) * 1999-05-21 2003-05-15 Michael Geilhufe Method and apparatus for machine to machine communication using speech
JP2001175281A (ja) * 1999-12-20 2001-06-29 Seiko Epson Corp 動作指令処理方法および動作指令処理装置並びに動作指令処理プログラムを記録した記録媒体
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US6937742B2 (en) * 2001-09-28 2005-08-30 Bellsouth Intellectual Property Corporation Gesture activated home appliance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022015545A (ja) * 2020-07-09 2022-01-21 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム
JP7314102B2 (ja) 2020-07-09 2023-07-25 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム

Also Published As

Publication number Publication date
EP1459295A1 (en) 2004-09-22
US20050071169A1 (en) 2005-03-31
AU2002366898A1 (en) 2003-07-09
WO2003054858A1 (en) 2003-07-03
DE10163214A1 (de) 2003-07-10

Similar Documents

Publication Publication Date Title
EP3619707B1 (en) Customizable wake-up voice commands
US10930266B2 (en) Methods and devices for selectively ignoring captured audio data
US11600265B2 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
KR102040406B1 (ko) 스마트 디바이스 및 그 제어 방법
US20050114132A1 (en) Voice interactive method and system
US9190059B2 (en) Electronic device and method for controlling power using voice recognition
EP2524369B1 (en) Processing of voice inputs
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
KR102029820B1 (ko) 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법
US20030138118A1 (en) Method for control of a unit comprising an acoustic output device
KR102093030B1 (ko) 스마트 디바이스 및 그 제어 방법
WO2006118886A2 (en) Controlling an output while receiving a user input
JP2001034293A (ja) 音声を転写するための方法及び装置
JP7173049B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN109955270B (zh) 语音选项选择***与方法以及使用其的智能机器人
JP7204804B2 (ja) スマートバックミラーのインタラクション方法、装置、電子機器及び記憶媒体
JP2005513560A (ja) 電気機器を音声制御する方法及び制御システム
WO2021085242A1 (ja) 情報処理装置、及びコマンド処理方法
JP2006208486A (ja) 音声入力装置
US11726646B2 (en) Preserving engagement state based on contextual signals
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
WO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2003255987A (ja) 音声認識を利用した機器の制御方法、制御装置及び制御プログラム
JPH10326175A (ja) 音声指示装置および音声指示情報記憶媒体
JP2004354942A (ja) 音声対話システム、音声対話方法及び音声対話プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090713

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090806

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090813

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091208