JP4502567B2 - 音声認識装置の訓練又は適応を行う方法 - Google Patents
音声認識装置の訓練又は適応を行う方法 Download PDFInfo
- Publication number
- JP4502567B2 JP4502567B2 JP2002136073A JP2002136073A JP4502567B2 JP 4502567 B2 JP4502567 B2 JP 4502567B2 JP 2002136073 A JP2002136073 A JP 2002136073A JP 2002136073 A JP2002136073 A JP 2002136073A JP 4502567 B2 JP4502567 B2 JP 4502567B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- input
- recognition result
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000006978 adaptation Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000001960 triggered effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の属する技術分野】
本発明は、電化製品の機能に作用するよう使用される音声認識装置を訓練する又は適応させる方法に関する。
【0002】
【従来の技術】
具体的には、電化製品は移動電話機であり、音声ダイアルを実行することにより、デバイスの機能に作用し、音声入力によって別の加入者にダイアルされる。自動車に使用される場合は、ハンズフリーセットが一般的に設けられてユーザをアシストし、ユーザの操作の快適性は、別の加入者へのダイアリングをトリガするのにキーパッド入力を行う必要がなくなるので、改善される。本発明の他に適用可能な分野には、テレビ受像機、ビデオレコーダ、ハイファイ音楽システム、台所電化製品、又は、音声制御を有する他の電化製品といった電子消費者電化製品の制御が含まれ、音声が、例えば、音量制御、テレビのチャンネル又はラジオ局の選択、又は、台所電化製品のモータ速度の調節といった様々な電化製品の機能に作用する。
【0003】
音声認識装置は、訓練及び/又は適応されることが可能であり、音響モデルと関連付けられるパラメータが新しい単語、ユーザ、必要である場合は、周囲の雑音又は当該のマイクロホンの位置に適応される。本願では、音響モデルによって表される音声認識装置の語彙を含む音声認識装置の用語集に新しいエントリが追加されるか、又は、現行の語彙エントリが適応される。隠れマルコフ・モデル(HHM)を使用する音声認識装置では、隠れマルコフ・モデルの遷移確率と出力分布は調節される。
【0004】
音声認識装置は、訓練時に、装置をまだ操作したことのないユーザの音声入力に適応される。これは、音声認識装置をユーザが初めて利用する前に行われるか、まだ作動されていない音声入力を初めて使用した後にも行うことが可能である。更に、古い音声データを使用して、再訓練を行うことも可能である。訓練を実行するための様々な方法が既知であり、例えば、固定HMMトポロジーでは分布の混合の推定が行われ、或いは、HMM状態の数の変更又は切替えが行われる。
【0005】
音声認識装置の1つの適応において、音声認識装置の所定のパラメータが適応且つ最適化されるが、これらのパラメータは、ユーザによって行われる訓練において予め決められるか、又は、適切である場合、既に行われた適応処理に基づいて予め決められる。しかし、パラメータは、ユーザとは関係なく予め決められることも可能である。ユーザに対し音響適応する際に、システムは、収集されたユーザに特有の音声データによって改善される。即ち、誤差率は適応する過程において小さくなる。多数の適応方法が既知である。例えば、MAX(最大事後(maximum a posteriori))、MLLR(最尤線形回帰)、及び、自分の音声(この方法は、現在、複雑に構造化されるシステムにのみ使用される)がある。また、音響適応以外の適用の形も可能であり、従って、例えば、使用頻度の統計をとることにより(例えば、どのくらいの頻度でコマンド又は電話番号が話されたか、そして、どのような組合せでそれらのコマンド又は電話番号が話されたかを評価することにより)システムの性能及びデータの解析を改善することができる。
【0006】
US5,805,672は、音声認識装置を有する補助装置によって、自動車における移動電話機装置に音声ダイアル機能を与えることを開示する。自動車で使用される場合は、ハンズフリーセットを使用する。音声ダイアルが必要なときは、最初に音声ダイアルモードを作動させなくてはならない。補助装置は次に、音声認識装置によって音声入力のうちの学習した単語を認識し、関連の電話番号を認識した単語に割当て、関連の加入者が自動的にダイアルされる。訓練モードが設けられており、このモードが作動している間に、音声認識装置は訓練される。訓練モードは、キーを押すことにより作動する。訓練時には、ユーザは、名前を2回言い、関連付けられる電話番号を入力するよう要求される。次に、ユーザは確認キーを押し、その後に、システムは音声認識結果(認識された名前)と関連付けられる電話番号を、音声出力によりユーザに出力する。その後、ユーザは、別の名前での訓練を続けることができる。
【0007】
WO00/14729は、音声認識装置と音声ダイアル機能を有する移動電話機装置を開示する。ここでも、スイッチを動作することにより作動する訓練モードが設けられる。訓練モード時に、従来の訓練動作が行われ、音声認識装置の語彙は、新しいワードを入力することにより拡充される。
【0008】
【発明が解決しようとする課題】
本発明は、ユーザの快適性を高める音声認識装置の訓練及び/又は適応方法を設計することを目的とする。
【0009】
【課題を解決するための手段】
上記目的は、以下の段階を有する本発明の方法によって達成される。
【0010】
本発明の方法は、音声入力を実行する段階と、音声認識装置によって音声入力を処理し、音声認識結果を生成する段階と、音声認識結果が、電化製品の機能に割当てられると、電化製品の割当て可能な機能を作動させる段階と、電化製品の割当て可能な機能の作動に対しユーザが拒絶を表す入力を行わない場合、音声入力に関連付けられる音声認識結果に基づいて音声認識装置の訓練又は適応を行う段階とを含む。
【0011】
本発明の方法による訓練及び適応は、訓練又は適応モードを作動させる必要がない。訓練又は適応のために使用前のユーザ入力の確認も必要としない。訓練及び適応のために音声入力と関連付けられる音声認識結果が適切であるか否かは、音声認識結果に基づいて、例えば、音声ダイアル処理の実行といった割当て可能な装置機能が作動され、ユーザが、例えば、装置機能を停止する(請求項2)ことにより拒絶を表す入力を与えず、音声認識結果は正確に音声入力を表し、訓練又は適応に使用できるとみなされるという事実により確立される。ユーザは、音声又はキーパッド入力を介しても拒絶を表すことができる。
【0012】
請求項3は、音声認識結果が訓練及び適応に使用される前の追加のセキュリティ手段に関する。このセキュリティ手段が設けられることにより、音声認識結果が音声入力を正確に表さないにも関わらず、ユーザが拒絶を示さないとき、この音声認識結果に基づいての訓練動作又は適応は行われない。このセキュリティ手段は、音声認識結果が不十分であるにも関わらず、単にユーザが何かに関心をそがれて拒絶を表さなかったという場合に対する保護を与え、従って、目的の装置機能も作動しない。
【0013】
請求項4は、請求項3に記載するセキュリティ手段が、不十分な信頼度に基づいて訓練又は適応を阻止する場合に関する。音声入力の直後に、別の入力方法、例えば、キーパッド入力によって入力が行われると、前の音声入力と別の入力方法によるエントリが一致する可能性が高い。この一致を評価するために、音声入力と別の入力方法による後続の入力が一致しない場合を検出することを観点に、信頼度が確立される。この信頼度が所定のターゲット範囲内にある場合に、音声認識結果と、別の入力方法による入力を考慮しながら訓練又は適応が行われる。
【0014】
請求項4と同様に、請求項5では、音声入力は、最初は訓練又は適応に好適ではないと考えられるが、別の入力方法によって次の入力が行われると、別の入力方法による入力と、前の音声入力は一致する可能性が高くなる。請求項4とは対照的に、請求項5では、ユーザは、音声入力の後に拒絶を表す入力を行い、その結果、訓練又は適応は最初に行われない場合を組込む。ここでも、別の入力方法による入力に続く訓練及び適応の前に、音声入力と別の入力方法による後続の入力が一致しない場合を検出する観点から信頼度を使用して評価が行われる。
【0015】
請求項6に示す実施例では、各音声認識結果に対し少なくとも1つの代替となる音声認識結果が生成される。最近の音声入力及び関連の音声認識結果に基づいて訓練動作及び適応が行われ、前回の音声入力では訓練又は適応が行われなかった場合、音声認識結果が、前回の音声入力に対する代替の音声認識結果の最近の音声入力に対応するか否かが確認される。対応する場合、前回の音声入力と最近の音声入力とは互いに対応するとみなされる。後続の追加の訓練動作又は後続の追加の適応では、音声認識装置のパラメータは、前回の音声入力と最近の音声入力は、新しい入力動作において正しい音声認識結果となるよう設定される。即ち、最近の音声入力に対し判断された音声認識結果となるよう設定される。
【0016】
請求項7に記載する実施例では、ユーザに、音声認識結果が音響的又は視覚的に伝えられる。従って、音声認識結果の精度を評価するには、ユーザは単に装置機能が実行したことを認識するだけではない。ユーザが、装置機能が実行したことを認識することができない場合は、ユーザは追加の情報を必要とする。さもなければ、ユーザには音声認識装置によって生成される音声認識結果に関し与えられる情報は不十分となる。
【0017】
請求項8及び請求項9は、本発明を移動電話機に適用した場合に関する。ここでは、音声認識装置は、音声ダイアリングのために特に使用される。
【0018】
請求項10は、本発明の方法を実行する電化製品に関する。請求項11では、電化製品は、移動電話機端末の形をとる。
【0019】
【発明の実施の形態】
本発明を、図面に示す実施例を参照しながら詳細に説明するが、本発明は実施例に制限されるものではない。
【0020】
図1は、移動電話機端末として形成される電化製品1を示し、この製品1は、第1に、音声符号化/復号化及びハンズフリー信号処理(機能ブロック3に組込む)のためにアセンブルされ、第2に、音声認識装置(機能ブロック4)の音声認識手順の実行のためにアセンブルされるデジタル信号プロセッサ2を有する。移動電話機端末1は、マイクロホン5及びスピーカ6を有し、これらは、アナログ/デジタル変換器7及び8を介し、デジタル信号プロセッサ2に接続される。移動電話機端末1は更に、移動電話機端末1の機能を中央制御するマイクロコントローラ9を含む。更に、記憶装置10が設けられ、音声認識装置4の用語集11と他のデータ12を記憶する。他のデータは、本発明において必要不可欠ではないので、簡潔となるよう組み合わされて機能ブロック12に示す。用語集11は、隠れマルコフ・モデルとして形成される音響モデルの形の音声認識装置4の語彙を含む。用語集11は、音声認識装置4の一部と考えなくてはならない。移動電話機端末1は更に、キーパッド入力ユニット13及びディスプレイユニット14を含む。アンテナ15を介して高周波信号を送受し、この信号は送受信器ユニット16により処理される。チャネル符号化/復号化ユニット17を使用して、送信されるべき信号のチャネル符号化又は受信した信号のチャネル復号化を行う。バスシステム18が、デジタル信号プロセッサ2、マイクロコントローラ9、記憶装置10、キーパッド入力ユニット13、ディスプレイユニット14、及び、チャネル符号化/復号化ユニット17を相互に接続する。
【0021】
音声認識装置4を使用することにより、マイクロホン5を介し与えられた音声入力が、移動電話機端末1の機能に作用する。上記実施例では、音声入力によって、別の加入者へのダイアリングがトリガされる(音声ダイアリング)。この過程において、ユーザは、その電話をかける別の加入者の電話番号か、又は、その別の加入者の名前を言い、後者の名前を言う場合、その名前に対し、関連付けられる電話番号が事前に割当てられていなければならない。割当てには、音声入力のみ、又は、キーパッド入力ユニット13を介してのキーパッド入力のみ、或いは、キーパッド入力と音声入力の両方を使用することができる。音声認識装置4の滑らかな作動を確保するには、音声認識装置4を訓練する必要があり、即ち、関心の適用に適応され用語集11に格納される語彙が確立されなければならない。更に、音声認識装置を別の適用条件において適応させることを考慮し、既に訓練された音声認識装置4の音響モデルを後から適応させることも可能である。
【0022】
図2乃至図5は音声認識装置4の訓練及び適応のための様々な実施例を示す。
【0023】
図2に示す配置では、ステップ200において、例えば、当該の作動ボタンを押すことにより音声入力モードが作動される。ステップ201において、ユーザは、電話をかける相手である別の加入者の名前を音声入力として入力する。ステップ202において、音声認識装置4に支援されて、自動音声認識動作が行われ、音声認識結果が生成される。ステップ203において、この音声認識結果は、例えば、ディスプレイユニット14を介し視覚的な出力として又はスピーカ6を介し音響的な出力として、ユーザに出力される。電話番号が既に、認識された名前に割当てられているものとすると、ステップ204では、その電話番号が自動的にダイアルされる。ステップ205において、自動ダイアリングが、ユーザによって(例えば、音声認識結果が間違っており、その結果を拒絶するために特定のボタンを押すか又は「止める」といった音声コマンドを話すことにより)中断されたか否かが問合せされる。中断された場合、ステップ200とステップ201との間の点に戻り、音声認識装置は更なる音声入力を受け取る準備が整う。自動ダイアリングが中断されない場合、ステップ205において、問合せに対し否定の応答を与え、音声認識装置4の訓練及び適応は、ステップ202において判断される音声認識結果に基づいて行われる。その後、ステップ200とステップ201との間の点に戻り、更なる音声入力ができるようになる。
【0024】
図3に示す実施例では、最初にステップ300において、移動電話機端末1の音声入力モードが作動される。その後、ステップ301において、本実施例では、名前である音声入力が話される。ステップ302において音声認識動作が行われた後、ステップ303において、音声認識結果が、音響的又は視覚的にユーザに再生される。次に、図2において既に示したように、認識された名前を有する加入者への自動ダイアリングがトリガされる。ステップ305において、ユーザによって自動ダイアリングが中断されたか否かが問合せされる。中断された場合は、ステップ300とステップ301との間の点に戻る。中断されたのは、ユーザが、音声認識結果が間違っていることを認識し、それを拒絶したものと思われる。自動ダイアリングが中断されない場合、ステップ306において、音声認識結果の信頼度の計算が行われる。ステップ307において、その信頼度が、所定のターゲット範囲内にあるか否か問合せされる。所定のターゲット範囲内にない場合は、ステップ300とステップ301との間の点に戻る。信頼度が所定のターゲット範囲内にある場合は、音声認識結果は、実際に、音声入力を正しく表すとみなされ、ステップ308において、この音声認識結果に基づいて訓練動作又は適応が行われる。
【0025】
図4に示す実施例では、最初にステップ400において、音声入力モードが作動される。次に、ステップ401において、ここでは、電話をかける相手である加入者の名前である音声入力が話される。ステップ402において、その音声入力に関する音声認識動作が行われる。ステップ403において、音声認識結果がユーザに、音響的又は視覚的に出力される。ステップ404において、認識された名前を有する加入者の自動ダイアリングがトリガされる。ステップ405において、ダイアリングがユーザによって中断されたか否かが確認される。音声認識結果がユーザによって間違っていると認識され中断される場合、ステップ400とステップ401との間の点に戻る。自動ダイアリングがユーザによって中断されない場合、ステップ406において、音声認識結果の第1の信頼度が決定される。ステップ407において、第1の信頼度が第1の所定のターゲット範囲内にあるか否かが問合せされる。所定のターゲット範囲内にある場合は、ステップ408において、音声認識結果に基づいて音声認識装置4の訓練及び適応が行われる。ステップ407において、第1の信頼度が第1のターゲット範囲内にない場合は、ステップ409において、別の入力方法、例えば、キーパッド入力を介して、後続の入力が行われたか否かが確認される。別の入力方法により後続の入力が行われていない場合、ステップ400とステップ401との間の点に戻る。ステップ409において、音声入力の直後に、別の入力方法、即ち、特に、キーパッド入力を介して入力が行われたと確認される場合、前の音声入力と別の入力方法による後続の入力は互いに対応する可能性が高く、即ち、ユーザが音声ダイアルを失敗した後に、別の入力方法による入力によって同一の加入者へのダイアリングをトリガした可能性が高い。他の方法による入力の後、ステップ410において、前の音声認識結果に対する第2の信頼度が、別の入力方法による入力を考慮しながら決定される。ステップ411において、第2の信頼度が、第2の所定のターゲット範囲内にあるか否かが確認される。所定のターゲット範囲内にある場合、ステップ408において、別の入力方法によるユーザ入力を考慮しながら、音声認識結果に基づいて、音声認識装置の訓練及び適応が行われる。ステップ411において、第2の信頼度が第2の所定のターゲット範囲内にない場合、別の入力方法による入力と、前の音声入力は互いに対応しないことを表し、ステップ400とステップ401との間の点に戻る。
【0026】
原則的に、ステップ405において、ユーザが加入者へのダイアリングを中断し、従って、音声認識結果に対し拒絶を示した場合も、ステップ400とステップ401との間の点に戻るかわりに、ステップ409の問合せに進むことが可能であり、これは、点線412により示す。従って、音声入力の直後に別の入力方法によって入力が行われると、別の入力方法による入力と前の音声入力は互いに対応する可能性が非常に高く、音声認識結果は音声入力を正確に表していないとみなすことができる。しかし、音声認識結果は、それが完全に正確でなくとも、音声入力及び/又は別の入力方法による入力に対し適度な類似性がある場合は、音声認識装置の訓練又は適応に使用できる。この類似性は、信頼度に基づいて行われる確認により推定される。従って、訓練動作には、音声認識結果に含まれる情報と、別の入力方法による入力に含まれる情報の両方を含む。
【0027】
最後に、図5は、特殊な訓練又は適用が行われる本発明の実施例を示す。ステップ500において、音声入力モードが作動され、ステップ501において、ここでは名前である音声入力が話され、ステップ502において、音声認識装置4によって音声認識動作が行われ、ここでは、音声認識結果に加えて、少なくとも1つの更なる音声認識結果案が生成される。ステップ503において、音声認識結果はユーザに、音響的又は視覚的に出力される。ステップ504において、音声認識結果に関し、認識された名前を有する加入者への自動ダイアリングが行われる。ステップ505において、ダイアリングがユーザによって中断されたか否かが確認される。中断された場合は、ステップ500とステップ501との間の点に戻る。中断されていない場合は、ステップ506において、この最近の音声認識結果に基づいて、音声認識装置4の訓練又は適応が行われる。ステップ507では、この最近の音声認識結果が、前回の音声入力に対し決められた音声認識結果案に対応するか否か、そして、前回の音声入力に対し、ユーザが自動ダイアリングを停止したか否かが更に確認される。これらの条件のうちの1つが満たされないと、ステップ500とステップ501との間の点に戻る。これらの条件の両方が満たされると、前回の音声入力に対する音声認識案は、実際に、前回の音声入力に対し正しい音声認識結果を表すものとみなされる。この場合、ステップ508において、最近の音声入力と前回の音声入力は、同一の単語又は同一の単語列を表すとして、特殊な訓練又は適応が行われる。用語集11に入力される対応する語彙に関連付けられる音響モデルは、音声認識装置4が、最近の音声入力及び前回の音声入力の両方に対し正しい音声認識結果を生成するよう適応される。ステップ508が行われる後、ステップ500とステップ501との間の点に戻る。
【0028】
本発明は、移動電話機端末又は音声ダイアリングの適用に制限されるものではない。音声入力によって、例えば、音声出力の音量設定といった電化製品の他の機能を作動させることもできる。更に、ユーザに対し、音声認識の音響的又は視覚的な出力を行うことが完全に必要な訳ではない。特に、音声認識結果の精度といった更なる情報を必要とすることなく、ユーザが音声入力に対応する装置の機能の実行から判断できる場合にはなくてもよい。更に、ユーザは、既に始まっている装置の機能を中断することのない所定の入力(例えば、所定の音声又はキーパッド入力)を介し、拒絶を、追加的又は選択的に示すことができる。
【図面の簡単な説明】
【図1】移動電話機端末を示すブロック回路図である。
【図2】本発明の異なる実施例を示すフローチャートである。
【図3】本発明の異なる実施例を示すフローチャートである。
【図4】本発明の異なる実施例を示すフローチャートである。
【図5】本発明の異なる実施例を示すフローチャートである。
【符号の説明】
1 移動電話機端末
2 デジタル信号プロセッサ
3 音声符号化/復号化、ハンズフリー信号処理
4 音声認識装置
5 マイクロホン
6 スピーカ
A/D変換器
9 マイクロコントローラ
10 記憶装置
11 用語集
12 他のデータ
13 キーアッド入力ユニット
14 ディスプレイユニット
15 アンテナ
16 送受信器
17 チャネル符号化/復号化ユニット
Claims (11)
- 電化製品の機能に作用するために使用される音声認識装置の訓練又は適応を行う方法であって、
音声入力を実行する段階と、
上記音声認識装置によって、上記入力音声を処理し、音声認識結果を生成する段階と、
上記音声認識結果を上記電化製品の機能に割当てることが可能である場合には、上記電化製品の上記割当て可能な機能を作動させる段階と、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記実行された音声入力に関連付けられる上記音声認識結果に基づいて上記音声認識装置の訓練又は適応を行う段階とを含み、
ユーザが拒絶を表さない場合には、
上記音声認識装置の音声認識結果に対し第1の信頼度が決定され、
上記音声認識装置の上記訓練又は適応を行う段階は、上記音声認識結果の上記第1の信頼度が第1の所望の所定範囲内にある場合に、発話された音声の入力に対応する上記音声認識結果に基づいて行われ、
上記第1の信頼度が上記第1の所望の所定範囲にないことが分かり、更に、別の入力方法により、次のユーザ入力が行われた場合には、上記別の入力方法によって行われる上記ユーザ入力を考慮して、上記音声認識結果に対し第2の信頼度が決定され、上記訓練及び適応を行う段階は、上記第2の信頼度が第2の所望の範囲内にあることが分かった場合に、上記別の入力方法によって行われる上記ユーザ入力を考慮して、上記音声認識結果に基づいて行われることを特徴とする方法。 - 電化製品の機能に作用するために使用される音声認識装置の訓練又は適応を行う方法であって、
音声入力を実行する段階と、
上記音声認識装置によって、上記入力音声を処理し、音声認識結果を生成する段階と、
上記音声認識結果を上記電化製品の機能に割当てることが可能である場合には、上記電化製品の上記割当て可能な機能を作動させる段階と、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記実行された音声入力に関連付けられる上記音声認識結果に基づいて上記音声認識装置の訓練又は適応を行う段階とを含み、
音声入力の後に、音声認識結果の拒絶を表すユーザ入力が行われ、更に、これに関連して、別の入力方法によりユーザ入力が行われた場合、上記別の入力方法によって行われる上記ユーザ入力を考慮して、上記音声認識結果に対する第2の信頼度が決定され、上記音声認識装置の上記訓練及び適応を行う段階は、上記音声入力と、上記別の入力方法により行われる上記ユーザ入力が、同一の単語列を表すとみなされる場合に行われることを特徴とする方法。 - 電化製品の機能に作用するために使用される音声認識装置の訓練又は適応を行う方法であって、
音声入力を実行する段階と、
上記音声認識装置によって、上記入力音声を処理し、音声認識結果を生成する段階と、
上記音声認識結果を上記電化製品の機能に割当てることが可能である場合には、上記電化製品の上記割当て可能な機能を作動させる段階と、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記実行された音声入力に関連付けられる上記音声認識結果に基づいて上記音声認識装置の訓練又は適応を行う段階とを含み、
上記音声認識装置は、音声認識結果に加えて、少なくとも1つの代替の音声認識結果を毎回、生成し、
上記音声認識装置の上記訓練又は適応を行う段階は、上記音声認識結果に割当可能な上記電化製品の上記機能の作動に対し上記音声認識結果に対する拒絶を表すユーザ入力が行われず、
上記音声認識結果が、2番目に直近の音声入力に対する代替の音声認識結果に対応し、
上記2番目に直近の音声認識結果に対する拒絶を表すユーザ入力が行われた場合に、最も直近の音声入力に関連付けられた上記音声認識結果に基づいて行われ、
上記最も直近の音声認識結果、及び上記2番目に直近の音声入力が同一の単語又は単語列を表すとみなされる場合、上記音声認識装置の更なる訓練又は適応を行う段階が行われることを特徴とする方法。 - 上記音声認識装置の上記訓練又は適応を行う段階は、上記電化製品の上記機能の実行がユーザ入力によって中断されない場合に行われることを特徴とする請求項1乃至3の何れか一項に記載の方法。
- 音声認識結果の音響的又は視覚的な再現が与えられることを特徴とする請求項1乃至3の何れか一項に記載の方法。
- 上記電化製品は、移動電話機であることを特徴とする請求項1乃至3の何れか一項記載の方法。
- 音声入力により、ダイアリング処理がトリガされることを特徴とする請求項6記載の方法。
- 電化製品の機能に作用するよう使用される音声認識装置を有する電化製品であって、上記電化製品及び上記音声認識装置は、
実行された音声入力を受け取る手段が備えられ、
上記入力音声の処理からの音声認識結果を生成するために上記音声認識装置が備えられ、
上記電化製品の機能の上記音声認識結果が割当て可能である場合には、上記電化製品の上記割当て可能な機能を作動させる手段が備えられ、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記音声認識装置は、上記実行された音声入力に関連付けられた上記音声認識結果に基づいて訓練又は適応を行う
ように上記音声認識装置の訓練又は適応を行うよう構成され、
音声入力の後に、音声認識結果の拒絶を表すユーザ入力が行われ、更に、これに関連して、別の入力方法によりユーザ入力が行われた場合、上記別の入力方法により行われる上記ユーザ入力を考慮しながら、上記音声認識結果に対する信頼度が決定され、上記音声認識装置の上記訓練及び適応は、上記音声入力と、上記別の入力方法により行われる上記ユーザ入力が、同一の単語列を表すとみなされる間に行われることを特徴とする電化製品。 - 電化製品の機能に作用するよう使用される音声認識装置を有する電化製品であって、上記電化製品及び上記音声認識装置は、
実行された音声入力を受け取る手段が備えられ、
上記入力音声の処理からの音声認識結果を生成するために上記音声認識装置が備えられ、
上記電化製品の機能の上記音声認識結果が割当て可能である場合には、上記電化製品の上記割当て可能な機能を作動させる手段が備えられ、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記音声認識装置は、上記実行された音声入力に関連付けられた上記音声認識結果に基づいて訓練又は適応を行う
ように上記音声認識装置の訓練又は適応を行うよう構成され、
ユーザが拒絶を表さない場合には、
上記音声認識装置の音声認識結果に対し第1の信頼度が決定され、
上記音声認識装置の上記訓練又は適応は、上記音声認識結果の上記第1の信頼度が第1の所望の所定範囲内にある場合に、上記実行された音声入力に対応する上記音声認識結果に基づいて行われ、
上記第1の信頼度が上記第1の所望の所定範囲にないことが分かり、更に、別の入力方法により、次のユーザ入力が行われた場合には、上記別の入力方法による上記ユーザ入力を考慮しながら、上記音声認識結果に対し第2の信頼度が決定され、上記訓練及び適応は、上記第2の信頼度が第2の所望の所定範囲内にあることが分かった場合に、上記別の入力方法によって行われる別の音声入力を考慮しながら、上記音声認識結果に基づいて行われることを特徴とする電化製品。 - 電化製品の機能に作用するよう使用される音声認識装置を有する電化製品であって、上記電化製品及び上記音声認識装置は、
実行された音声入力を受け取る手段が備えられ、
上記入力音声の処理からの音声認識結果を生成するために上記音声認識装置が備えられ、
上記電化製品の機能の上記音声認識結果が割当て可能である場合には、上記電化製品の上記割当て可能な機能を作動させる手段が備えられ、
上記電化製品の上記割当て可能な機能の作動に対し拒絶を表すようにみえるユーザ入力が行われない場合には、上記音声認識装置は、上記実行された音声入力に関連付けられた上記音声認識結果に基づいて訓練又は適応を行う
ように上記音声認識装置の訓練又は適応を行うよう構成され、
上記音声認識装置は、音声認識結果に加えて、少なくとも1つの代替の音声認識結果を生成し、
上記音声認識装置の上記訓練又は適応は、上記音声認識結果に割当可能な上記電化製品の上記機能の作動に対し上記音声認識結果に対する拒絶を表すようにみえるユーザ入力が行われず、
上記音声認識結果が、2番目に直近の音声入力に対する代替の音声認識結果に対応し、
上記2番目に直近の音声認識結果に対する拒絶を表すユーザ入力が行われた場合に、最も直近の音声入力に関連付けられた上記音声認識結果に基づいて行われ、
上記最も直近の音声入力、及び上記2番目に直近の音声入力が同一の単語又は単語列を表すとみなされる場合、上記音声認識装置の更なる訓練又は適応が行われることを特徴とする電化製品。 - 上記電化製品が移動電話機端末である請求項8乃至10の何れか一項に記載の電化製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10122828A DE10122828A1 (de) | 2001-05-11 | 2001-05-11 | Verfahren zum Training oder zur Adaption eines Spracherkenners |
DE10122828.7 | 2001-05-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003044081A JP2003044081A (ja) | 2003-02-14 |
JP4502567B2 true JP4502567B2 (ja) | 2010-07-14 |
Family
ID=7684355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002136073A Expired - Lifetime JP4502567B2 (ja) | 2001-05-11 | 2002-05-10 | 音声認識装置の訓練又は適応を行う方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7050550B2 (ja) |
EP (1) | EP1256936B1 (ja) |
JP (1) | JP4502567B2 (ja) |
CN (1) | CN1220176C (ja) |
AT (1) | ATE354156T1 (ja) |
DE (2) | DE10122828A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8636784B2 (en) | 2007-11-02 | 2014-01-28 | Stout Medical Group, LP | Expandable attachment device and method |
Families Citing this family (137)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10313310A1 (de) | 2003-03-25 | 2004-10-21 | Siemens Ag | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
US7997771B2 (en) * | 2004-06-01 | 2011-08-16 | 3M Innovative Properties Company | LED array systems |
US20060009974A1 (en) * | 2004-07-09 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | Hands-free voice dialing for portable and remote devices |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070236628A1 (en) * | 2006-03-31 | 2007-10-11 | 3M Innovative Properties Company | Illumination Light Unit and Optical System Using Same |
US7689417B2 (en) * | 2006-09-04 | 2010-03-30 | Fortemedia, Inc. | Method, system and apparatus for improved voice recognition |
US7957972B2 (en) | 2006-09-05 | 2011-06-07 | Fortemedia, Inc. | Voice recognition system and method thereof |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008061158A2 (en) * | 2006-11-14 | 2008-05-22 | Real Phone Card Corporation | Method and apparatus for low cost telephone |
KR100897553B1 (ko) | 2007-01-04 | 2009-05-15 | 삼성전자주식회사 | 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치 |
KR100883105B1 (ko) * | 2007-03-30 | 2009-02-11 | 삼성전자주식회사 | 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
TWI360109B (en) * | 2008-02-05 | 2012-03-11 | Htc Corp | Method for setting voice tag |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US11487347B1 (en) | 2008-11-10 | 2022-11-01 | Verint Americas Inc. | Enhanced multi-modal communication |
US20100178956A1 (en) * | 2009-01-14 | 2010-07-15 | Safadi Rami B | Method and apparatus for mobile voice recognition training |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
CN102682767B (zh) * | 2011-03-18 | 2015-04-08 | 株式公司Cs | 一种应用于家庭网络的语音识别方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
US8749618B2 (en) | 2011-06-10 | 2014-06-10 | Morgan Fiumi | Distributed three-dimensional video conversion system |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) * | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
DE102013007502A1 (de) | 2013-04-25 | 2014-10-30 | Elektrobit Automotive Gmbh | Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US9507852B2 (en) * | 2013-12-10 | 2016-11-29 | Google Inc. | Techniques for discriminative dependency parsing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
KR20150145024A (ko) * | 2014-06-18 | 2015-12-29 | 한국전자통신연구원 | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
JP7062958B2 (ja) * | 2018-01-10 | 2022-05-09 | トヨタ自動車株式会社 | 通信システム、及び通信方法 |
DE102018103965A1 (de) * | 2018-02-22 | 2019-08-22 | Schuler Pressen Gmbh | Verfahren zur Mensch-Maschine-Kommunikation mittels einer Mensch-Maschine-Schnittstelle und Vorrichtung hierfür |
US11011162B2 (en) * | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995009416A1 (en) * | 1993-09-30 | 1995-04-06 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
IL108608A (en) * | 1994-02-09 | 1998-01-04 | Dsp Telecomm Ltd | Accessory voice operated unit for a cellular telephone |
US5802149A (en) * | 1996-04-05 | 1998-09-01 | Lucent Technologies Inc. | On-line training of an automated-dialing directory |
FI111673B (fi) * | 1997-05-06 | 2003-08-29 | Nokia Corp | Menetelmä puhelinnumeron valitsemiseksi puhekomennoilla ja puhekomennoilla ohjattava telepäätelaite |
KR100277105B1 (ko) * | 1998-02-27 | 2001-01-15 | 윤종용 | 음성 인식 데이터 결정 장치 및 방법 |
SE9802990L (sv) | 1998-09-04 | 2000-03-05 | Ericsson Telefon Ab L M | Förfarande och system för taligenkänning |
EP1426923B1 (en) * | 1998-12-17 | 2006-03-29 | Sony Deutschland GmbH | Semi-supervised speaker adaptation |
EP1022724B8 (en) * | 1999-01-20 | 2008-10-15 | Sony Deutschland GmbH | Speaker adaptation for confusable words |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
-
2001
- 2001-05-11 DE DE10122828A patent/DE10122828A1/de not_active Withdrawn
-
2002
- 2002-05-08 AT AT02100462T patent/ATE354156T1/de not_active IP Right Cessation
- 2002-05-08 DE DE50209455T patent/DE50209455D1/de not_active Expired - Lifetime
- 2002-05-08 CN CNB021275459A patent/CN1220176C/zh not_active Expired - Lifetime
- 2002-05-08 EP EP02100462A patent/EP1256936B1/de not_active Expired - Lifetime
- 2002-05-10 JP JP2002136073A patent/JP4502567B2/ja not_active Expired - Lifetime
- 2002-05-10 US US10/143,641 patent/US7050550B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8636784B2 (en) | 2007-11-02 | 2014-01-28 | Stout Medical Group, LP | Expandable attachment device and method |
Also Published As
Publication number | Publication date |
---|---|
US7050550B2 (en) | 2006-05-23 |
ATE354156T1 (de) | 2007-03-15 |
CN1220176C (zh) | 2005-09-21 |
DE10122828A1 (de) | 2002-11-14 |
JP2003044081A (ja) | 2003-02-14 |
DE50209455D1 (de) | 2007-03-29 |
CN1391210A (zh) | 2003-01-15 |
EP1256936B1 (de) | 2007-02-14 |
EP1256936A3 (de) | 2004-12-15 |
US20030012347A1 (en) | 2003-01-16 |
EP1256936A2 (de) | 2002-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4502567B2 (ja) | 音声認識装置の訓練又は適応を行う方法 | |
KR0129856B1 (ko) | 음성명령에 의한 디지트 시퀀스르 입력하기 위한 방법 | |
KR100856358B1 (ko) | 음성 인에이블 장치용 구두 사용자 인터페이스 | |
US8880402B2 (en) | Automatically adapting user guidance in automated speech recognition | |
US5640485A (en) | Speech recognition method and system | |
CA2231504C (en) | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process | |
EP0757342B1 (en) | User selectable multiple threshold criteria for voice recognition | |
US20060215821A1 (en) | Voice nametag audio feedback for dialing a telephone call | |
US20050216271A1 (en) | Speech dialogue system for controlling an electronic device | |
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
JPH1188502A (ja) | 音声応答メッセージング方法および装置 | |
US20070118380A1 (en) | Method and device for controlling a speech dialog system | |
EP0393059A1 (en) | METHOD FOR INTERRUPTING A TELEPHONE CALL BY VOICE COMMAND. | |
JP3524370B2 (ja) | 音声起動システム | |
JPH1152976A (ja) | 音声認識装置 | |
AU760377B2 (en) | A method and a system for voice dialling | |
EP1151431B1 (en) | Method and apparatus for testing user interface integrity of speech-enabled devices | |
US20070286395A1 (en) | Intelligent Multimedia Dial Tone | |
JP2004184803A (ja) | 車両用音声認識装置 | |
JPH11109987A (ja) | 音声認識装置 | |
KR100399883B1 (ko) | 음성인식 프로세서를 내장한 휴대폰의 음성인식 시스템 | |
WO2022237976A1 (en) | Method for operating a telephone communication robot, telephone communication robot and vehicle | |
WO2021044569A1 (ja) | 音声認識補助装置および音声認識補助方法 | |
JP3140084B2 (ja) | 練習機能付き音声ダイヤル装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050506 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071002 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071227 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080402 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080811 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080922 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20081017 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091130 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091203 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100420 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4502567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130430 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |