JP2001134291A - 音声認識のための方法及び装置 - Google Patents

音声認識のための方法及び装置

Info

Publication number
JP2001134291A
JP2001134291A JP2000277688A JP2000277688A JP2001134291A JP 2001134291 A JP2001134291 A JP 2001134291A JP 2000277688 A JP2000277688 A JP 2000277688A JP 2000277688 A JP2000277688 A JP 2000277688A JP 2001134291 A JP2001134291 A JP 2001134291A
Authority
JP
Japan
Prior art keywords
speech recognition
recognition processing
voice
speaker
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000277688A
Other languages
English (en)
Inventor
Ernst F Schroeder
エフ シュレーダー エルンスト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Publication of JP2001134291A publication Critical patent/JP2001134291A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Selective Calling Equipment (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 予めユーザによって作動されることなく、比
較的遠い距離からのボイス入力を可能とするボイス制御
のための方法及びこの方法を実行する装置を提供するこ
とを目的とする。 【解決手段】 まず単純な音声認識処理5aが実行さ
れ、次に1つ以上のより複雑な音声認識処理5bが実行
される。この場合、単純な音声認識処理5aは、方言及
び話者からかなり独立であり、僅かな語彙のみを有し、
語順の認識はできない。複雑な音声認識処理5bは、方
言及び話者にかなり依存するが、拡張的な語彙を有し、
語順の認識を可能とする。有利には、単純な音声認識処
理5aはより複雑な音声認識処理5bのうちの1つのス
イッチオンするために使用される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ボイス制御のため
の、特に消費者電子機器に属する装置を制御するための
方法及び装置に関する。
【0002】
【従来の技術】ボイス制御システムは、多くの技術分野
において使用される。この場合、話された単語は、通常
は1つ以上のマイクロホンによってまずサウンド信号と
して検出され、次に音声認識システムに供給される。こ
の場合、音声認識は通常は音響モデル及び音声モデルに
基づく。音響モデルは多数の音声パターンを利用し、話
された単語に音響的に最もよく一致する単語を示すため
に数学アルゴリズムが使用される。音声モデルは或る単
語が通常使用される文脈及び頻度を確かめるために多数
の文書サンプルを用いる解析に基づく。かかる音声認識
システムは、個々の単語だけでなく、高い認識率で流暢
に話された文章も認識することを可能とする。しかしな
がら、無視できないほどの背景雑音が存在する場合、認
識率は大きく低減する。
【0003】かかる音響的な妨害の影響に対する強さは
様々な方法で高められうる。従って、コンピュータ用の
ディクテーションシステムでは、ヘッドセット枠体に設
けられたマイクロホンは、話者の口のすぐ前方に固定さ
れている。これらのシステムでは、非常に一定の信号、
そして或る状況ではかなりの認識率は、口のすぐ近傍で
しか達成できない。同様に、遠隔制御装置に一体化され
たマイクロホンに向かって操作命令を話すことによって
テレビジョン受像機を制御することが知られている。し
かしながら、この場合も、遠隔制御装置は使用者の口の
すぐ前方に保持されねばならない。
【0004】公知の音声認識システムは、ユーザがま
ず、例えば遠隔制御器に設けられたボタンを押し下げる
ことによって、音声認識を作動させねばならないという
欠点がある。
【0005】
【発明が解決しようとする課題】本発明は、予めユーザ
によって作動されることなく、比較的遠い距離からのボ
イス入力を可能とするボイス制御のための方法を提供す
ることを1つの目的とする。本発明は、本発明による方
法を実行するための装置を提供することを更なる目的と
する。
【0006】
【課題を解決するための手段】上記目的は請求項1に記
載の方法及び請求項6に記載の装置によって達成され
る。
【0007】原理的には、ボイス命令に対応するサウン
ド信号が電気信号へ変換され、上記電気信号が音声認識
装置によって操作命令へ変換される音声認識のための方
法は、まず単純な音声認識処理が実行され、次に1つ以
上のより複雑な音声認識処理が実行されることを特徴と
する。
【0008】望ましくは、単純な音声認識処理は、方言
及び話者からかなり独立であるが、僅かな語彙のみを有
し、語順の認識を可能とせず、一方、より複雑な音声認
識処理のうちの少なくとも1つは、方言及び話者にかな
り依存するが、拡張的な語彙を有し、及び/又は、語順
の認識を可能とする。
【0009】有利には、単純な音声認識処理は上記より
複雑な音声認識処理のうちの1つのスイッチオンするた
めに使用される。
【0010】同様に、単純な音声認識処理は上記話者を
識別するよう作用することが有利である。
【0011】また、単純な音声認識処理はオーディオ再
生の音量をミュートするよう又は下げるよう作用するこ
とが有利である。
【0012】
【発明の実施の形態】以下、本発明を添付の図面を参照
して説明する。
【0013】図1は、本発明による方法の順序をフロー
チャートの形式で示す概略図である。まず、最初のステ
ップ1において、1つ以上のマイクロホンによってサウ
ンド信号が電気信号に変換され、アナログボイス信号が
得られる。次に、ステップ2において、アナログボイス
信号はアナログ・ディジタル変換器によってディジタル
ボイス信号に変換される。次にステップ3において、音
声認識が既に単純な音声認識ユニットによって行われて
いるかどうかの判定が行われる。判定の結果が肯定的で
あれば、ステップ4b、5b、6が行われ、そうでなけ
ればステップ4a、5a、6が行われる。ディジタル化
された音響信号から夫々の信号処理及び解析4a、4b
によって、音声の個々のサウンドに可能な限り典型的で
あり、妨害及び発音の多様性に対して強い特徴が得られ
る。
【0014】図示される典型的な実施例では、特徴の抽
出は様々な音声認識ユニットに対して別々に行われる
が、一緒に行われてもよい。すると、実際の音声認識は
各ステップ5a及び5bにおいて行われる。夫々の信号
処理及び解析4aによって得られる信号は、上記信号を
1つ以上の所定の命令について調査する原始音声認識ユ
ニット5aへ供給される。この音声認識ユニットはこの
ように少しの語彙のみを必要とし、可能な限り方言及び
話者から独立である。所定のボイス命令、例えば「Hey,
Telly!」又は「Turn On!」のみが検出されれば、これ
が注目され、更なる処理は夫々の信号処理及び解析4b
及び音声認識ユニット5bによって行われる。音声認識
ユニット5bは拡張的な語彙を有し、語順を認識するこ
とが可能であるが、単純な音声認識ユニット5aによっ
て命令が認識されるまで作動されない。認識された命令
及び/又は語順に関して、ステップ6において、対応す
る命令が決定され、音声制御されたシステム、例えばメ
ニュー制御又はナビゲーションを制御するために使用さ
れる。
【0015】音声認識ユニットの数は2つに限られるも
のではなく、2つ以上の音声認識ユニットの階層的な配
置を使用することも考えられる。このように、例とし
て、第1の音声認識ユニットは、非常に少ない語彙のみ
が必要とされるような、音声認識処理を作動させるため
だけに使用されうる。次に、異なったメニュー項目を駆
動又は選択するために、より多くの語彙を有する第2の
音声認識ユニットが使用されうる。すると、更なる音声
認識ユニットは夫々のメニュー項目のもとで作動されう
る。この第3の音声認識ユニットは、非常の拡張的な語
彙を有してもよく、これにより所望の種類の入力、例え
ば所望の送信のタイトル、又は、ウェブTVの場合はイ
ンターネットアドレスの入力を可能としうる。
【0016】同様に、第1の音声認識ユニットは例えば
テレビジョン受像機といった装置の再生をミュートする
ため、又は音量を下げるために、追加的に又は排他的に
使用されうる。更に、階層的に配置された音声認識ユニ
ットのうちの1つは話者を識別するために使用されう
る。これは、例えば親ロックといったアクセス制御のた
め、又は例えば電子番組案内の基本設定のための個人的
設定パラメータの選択のために興味深い。最後に、第1
の音声認識ユニットが所定のスイッチオン命令にのみ、
しかし様々な言語に反応することが考えられる。する
と、別の第2の又は更なる音声認識ユニットは、検出さ
れた言語に依存して作動される。
【0017】異なる音声認識ユニット又は音声認識処理
の異なる段階は、別々のアルゴリズム又は別々のハード
ウエアユニットを用いて実施されうる。しかしながら、
同様に、異なるパラメータ組を選択することによってこ
れを単一の音声認識器によって実施することも可能であ
る。
【0018】ボイス信号の検出のために、個々のマイク
ロホン、或いは、2つ以上のマイクロホンからなるマイ
クロホンアレイが設けられうる。マイクロホンアレイは
例えばテレビジョン受像機に一体化されうる。マイクロ
ホンは、検出されたサウンド信号を電気信号に変換し、
この電気信号は増幅器によって増幅され、AD変換器に
よってディジタル信号に変換され、信号処理ユニットへ
供給される。信号処理ユニットは検出されたサウンド信
号の異なったスケーリング又は処理によってユーザの夫
々の位置を考慮に入れることができる。更に、マイクロ
ホン信号は、スピーカによって出力されるサウンド信号
に対して補正されうる。このようにして処理された信号
は次に本発明による音声認識ユニットに供給され、本発
明による音声認識ユニットは上述のように、電気信号を
単語に変換する。最後に、これらの単語に対応する命令
がシステムを制御するシステムマネージャへ供給され
る。
【0019】本発明は、例えば、テレビジョン受像機、
ビデオレコーダ、DVDプレーヤ、衛星受信器、テレビ
ジョン/ビデオの組合せ、オーディオ装置、又はパーソ
ナルコンピュータ又は家庭用機器の同様の完全なオーデ
ィオシステムといった消費者電子機器に属する広範な機
器のボイス作動遠隔制御のために使用されうる。
【図面の簡単な説明】
【図1】本発明による方法の順序を概略的に示す図であ
る。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 21/02

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 ボイス命令に対応するサウンド信号が電
    気信号へ変換され、上記電気信号が音声認識装置によっ
    て操作命令へ変換される、多段音声認識のための方法で
    あって、 まず単純な音声認識処理が実行され、次に1つ以上のよ
    り複雑な音声認識処理が実行されることを特徴とする方
    法。
  2. 【請求項2】 上記単純な音声認識処理は、方言及び話
    者からかなり独立であるが、僅かな語彙のみを有し、語
    順の認識を可能とせず、 上記より複雑な音声認識処理のうちの少なくとも1つ
    は、方言及び話者にかなり依存するが、拡張的な語彙を
    有し、及び/又は、語順の認識を可能とすることを特徴
    とする、請求項1記載の方法。
  3. 【請求項3】 上記単純な音声認識処理は上記より複雑
    な音声認識処理のうちの1つのスイッチオンするために
    使用されることを特徴とする、請求項1又は2記載の方
    法。
  4. 【請求項4】 上記単純な音声認識処理は上記話者を識
    別するよう作用することを特徴とする、請求項1乃至3
    のうちいずれか一項記載の方法。
  5. 【請求項5】 上記単純な音声認識処理はオーディオ再
    生の音量をミュートするよう又は下げるよう作用するこ
    とを特徴とする、請求項1乃至4のうちいずれか一項記
    載の方法。
  6. 【請求項6】 請求項1乃至5のうちいずれか一項記載
    の方法を実行する装置。
JP2000277688A 1999-09-15 2000-09-13 音声認識のための方法及び装置 Pending JP2001134291A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19944325A DE19944325A1 (de) 1999-09-15 1999-09-15 Verfahren und Vorrichtung zur Spracherkennung
DE19944325.4 1999-09-15

Publications (1)

Publication Number Publication Date
JP2001134291A true JP2001134291A (ja) 2001-05-18

Family

ID=7922183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000277688A Pending JP2001134291A (ja) 1999-09-15 2000-09-13 音声認識のための方法及び装置

Country Status (6)

Country Link
EP (1) EP1091347A3 (ja)
JP (1) JP2001134291A (ja)
KR (1) KR20010030122A (ja)
CN (1) CN1288224A (ja)
DE (1) DE19944325A1 (ja)
ZA (1) ZA200004442B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9418656B2 (en) 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
EP0474496B1 (en) * 1990-09-07 1998-03-04 Kabushiki Kaisha Toshiba Speech recognition apparatus
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
DE4412309C2 (de) * 1994-04-09 2002-10-24 Tenovis Gmbh & Co Kg Verfahren zur Verbesserung der Spracherkennung unter Berücksichtigung verschiedener digitaler Codierbedingungen
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
EP0911808B1 (en) * 1997-10-23 2002-05-08 Sony International (Europe) GmbH Speech interface in a home network environment
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
JP2002540477A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアント−サーバ音声認識

Also Published As

Publication number Publication date
KR20010030122A (ko) 2001-04-16
DE19944325A1 (de) 2001-03-22
ZA200004442B (en) 2001-03-06
CN1288224A (zh) 2001-03-21
EP1091347A2 (en) 2001-04-11
EP1091347A3 (en) 2001-05-09

Similar Documents

Publication Publication Date Title
EP2587481B1 (en) Controlling an apparatus based on speech
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US11470382B2 (en) Methods and systems for detecting audio output of associated device
JP5442703B2 (ja) 消費者電化製品に関連する装置をボイス制御する方法及び装置
US9672812B1 (en) Qualifying trigger expressions in speech-based systems
EP1278183B1 (en) Voice operated electronic appliance
US9293134B1 (en) Source-specific speech interactions
US20060235698A1 (en) Apparatus for controlling a home theater system by speech commands
US20060235701A1 (en) Activity-based control of a set of electronic devices
US20070150287A1 (en) Method for driving a dialog system
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
WO2003107327A1 (en) Controlling an apparatus based on speech
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2001134291A (ja) 音声認識のための方法及び装置
JP2001042887A (ja) 自動音声認識器を訓練する方法
JP4608670B2 (ja) 音声認識装置および音声認識方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
JP2000122678A (ja) 音声認識機器制御装置
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置
JP6759370B2 (ja) 呼出音認識装置および呼出音認識方法
KR20240041956A (ko) Tv 및 리모컨을 포함하는 시스템 및 그 제어 방법
WO2003085639A1 (en) Controlling an apparatus based on speech
JP2004251991A (ja) 機器操作システム、機器操作用言語情報認識プログラム及び言語情報認識用辞書データ