JP2015537258A - 分散音声認識システムにおける音声モデル検索 - Google Patents

分散音声認識システムにおける音声モデル検索 Download PDF

Info

Publication number
JP2015537258A
JP2015537258A JP2015547478A JP2015547478A JP2015537258A JP 2015537258 A JP2015537258 A JP 2015537258A JP 2015547478 A JP2015547478 A JP 2015547478A JP 2015547478 A JP2015547478 A JP 2015547478A JP 2015537258 A JP2015537258 A JP 2015537258A
Authority
JP
Japan
Prior art keywords
speech recognition
model
data
user
asr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015547478A
Other languages
English (en)
Other versions
JP6096319B2 (ja
Inventor
ホフマイスター ビェアン
ホフマイスター ビェアン
エヴァン セッカー−ウォーカー ヒュー
エヴァン セッカー−ウォーカー ヒュー
コーネリアス オニール ジェフリー
コーネリアス オニール ジェフリー
Original Assignee
アマゾン テクノロジーズ インコーポレーテッド
アマゾン テクノロジーズ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アマゾン テクノロジーズ インコーポレーテッド, アマゾン テクノロジーズ インコーポレーテッド filed Critical アマゾン テクノロジーズ インコーポレーテッド
Publication of JP2015537258A publication Critical patent/JP2015537258A/ja
Application granted granted Critical
Publication of JP6096319B2 publication Critical patent/JP6096319B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

自動音声認識システムにおける、音声認識モデルおよびデータの使用を管理するための機能が開示される。モデルおよびデータは、それらが受信される際、または発話がより一般的なまたは異なるモデルで初期処理される後に、非同期に検索され、使用され得る。一旦受信されると、モデルおよび統計はキャッシュされ得る。モデルおよびデータを更新するために必要な統計もまた、それが利用可能になる際に、それがモデルおよびデータを更新するために使用され得るように非同期に検索され得る。更新されたモデルおよびデータは、発話を再処理するために即時に使用されてもよく、または後続して受信される発話の処理における使用のために保存されてもよい。ユーザの自動音声認識システムとの相互作用は、ユーザがいつシステムを利用する可能性があるかを予測するために追跡され得る。モデルおよびデータは、そのような予測に基づいて事前キャッシュされ得る。

Description

現代の音声認識システムは、音響モデルおよび言語モデルを典型的に含む。音響モデルは、発話の音響特性に基づいて、どの語または副語単位(例えば、音素)が発話に対応するかに関する仮説を発生させるために使用される。言語モデルは、発話が話される言語の語彙特性に基づいて、音響モデルを使用して発生させた仮説のうちのどれが、発話の最も可能性がある転写であるかを決定するために使用される。
音声認識において使用される音響モデル、言語モデル、および他のモデル(総じて音声認識モデルと称される)は、異なる程度に特殊化またはカスタマイズされ得る。例えば、音声認識システムは、いかなる特定の方法でもカスタマイズされない一般または基礎モデル、および特定の性別、年齢幅、地域的アクセント、またはこれらの任意の組み合わせのための、任意の数の追加モデルを有し得る。いくつかのシステムは、特定の主題(例えば、医学用語)、または特定のユーザのためのモデルさえをも有し得る。
音声認識システムは、クライアントに基づく、またはクライアント−サーバに基づくものであり得る。例えば、ラップトップコンピュータなどのコンピュータ装置は、音声入力を、テキスト出力、または音声入力の可能性がある転写のリストに処理するためのアプリケーションソフトウェアおよびデータを含み得る。いくつかの音声認識は、パーソナルまたは携帯コンピュータ装置を介して音声入力を受容し、音声入力が転写される、または他の処理が実行されるネットワークアクセス可能サーバに、音声入力を伝達する。
様々な発明的特性の実施形態が、以下の図面を参照してこれより記載される。図面を通して、参照番号は、参照される要素間の対応を示すために再使用され得る。図面は、本明細書に記載される例示的な実施形態を図示するために提供され、本開示の範囲を限定することが意図されない。
クライアント装置と、音声認識サーバと、モデル記憶サーバとの間の例示的な相互作用を示す、分散音声認識システムが実装され得る例示的ネットワーク環境のブロック図である。 様々なモジュールおよびデータストアを示す、例示的音声認識サーバのブロック図である。 分散音声認識システムにおいて音声認識セッションを管理するための、例示的処理の流れ図である。 分散音声認識システムにおいてモデルの事前キャッシュを利用するための、例示的処理の流れ図である。 クライアント装置と、音声認識サーバと、モデルキャッシュと、モデル記憶サーバとの間の例示的相互作用のブロック図である。 クライアント装置と、音声認識サーバと、モデルキャッシュと、モデル記憶サーバとの間の例示的相互作用のブロック図である。
導入
一般的に記載して、本開示は、特殊化またはカスタマイズされた言語モデル、特殊化またはカスタマイズされた音響モデル、および総じて音声認識モデルと称される他のデータを含む、分散音声認識システムの動作を管理することに関する。音声認識システムは、音声認識モデルを使用して、ユーザの発話を転写または発話の可能性がある転写のリストに処理する。いくつかの音声認識システムは、多数のユーザに適用される一般化または基礎音声認識モデルを使用する。いくつかの場合、音声認識システムは、個人ユーザまたはユーザの集団に基礎モデルより正確な結果を提供するために、追加モデルを使用し得る。そのような追加モデルは、特定のユーザが典型的に使用する語彙を含んでも、または強調してもよく、あるいはそれらは、音声認識処理中に、特定のユーザの音声がデジタルで表される方法をより密接に整合させてもよい。しかしながら、追加モデル(および一般に音声認識モデル)は大量の記憶容量を消費し得るため、音声認識システムは、それらが、音声認識処理が行われる装置上にローカルで記憶し得るモデルの数において限定されている。更に、それらの大きいサイズのために、他の装置(例えば、記憶サーバ)からの追加モデルの検索は、ユーザによって知覚される実行に悪影響を与える。例えば、記憶サーバから大きい追加モデルを検索するために必要とされる時間は、ユーザが発話を話すことと結果を受信することとの間で経験する遅延を増加させる。
本開示の態様は、音声認識を発話上に実行することにおける使用のための、追加の音声認識モデルの非同期検索に関する。音声認識モデルの検索が初期処理と干渉しないように、音声認識サーバまたはエンジンは、発話の処理を開始する前に、またはそれと平行して、データストアから音声認識モデルを要求し得る。例えば、マルチスレッドシステムにおいて、音声認識モデルの検索を管理するスレッドは、処理するスレッドを妨害しない。
いくつかの実施形態において、音声認識システムは、音声認識を実行するための構成要素(例えば、音声認識サーバ)、および追加の音声認識モデルを記憶するための構成要素(例えば、長期記憶サーバ)を含む分散システムとして実装され得る。音声認識サーバは、ユーザから音声入力を受信し、記憶構成要素から、異なる程度にカスタマイズまたは特殊化された1つ以上の音声認識モデル(例えば、ユーザの性別のもの、ユーザの地域的アクセントのもの、特定のユーザのものなど)を検索し得る。音声認識サーバは、受信された音声入力を基礎音声認識モデルで処理する間にも、追加の音声認識モデルを検索し得る。いくつかの場合、追加モデルが要求される際、それらがネットワークを介して受信されるまで遅延が存在し得る。これは、転写を提供すること、またはユーザの発話に応答した動作を実行することにおける遅延を引き起こし得る。ユーザは、そのような遅延を、受容しがたいと考え得る。しかしながら、追加モデルが、満足のいく性能をユーザに依然として提供しながら、それらが使用され得るために十分に迅速に受信される場合(例えば、<100ms、<500msなどの遅延)、追加モデルは、音声認識の正確性を改良するために使用され得る。例えば、追加の音声認識モデルは、音声入力の基礎モデルでの処理を開始する前に受信されてもよく、そのような場合、追加の音声認識モデルは最初から使用され得る。別の例として、モデルは、音声入力の基礎モデルでの処理中、または処理が完了した後に到着してもよい。追加モデルは、そのような再処理が満足のいく性能をユーザに提供するために十分に迅速に行われ得る場合、音声入力または初期処理の結果を再処理するために使用され得る。
処理前または処理中に追加の音声認識モデルを要求することに加えて、音声認識サーバは、追加の音声認識モデルを更新するための統計および他のデータを、非同期に要求し得る。追加の音声認識モデルは、音声認識サーバが発話を処理した後に更新され得る。追加の音声認識モデルを更新するために使用されるデータの量は、しばしば追加の音声認識モデル自体のデータの量より実質的に大きい。有利なことに、追加の音声認識モデルを更新するための統計および他のデータを非同期に要求することによって、追加の音声認識モデルが、統計および他のデータが受信されるのと同時に更新され得る。更新された音声認識モデルは、その後より正確、またはさもなければ良好な結果を提供するために再使用され得る。例えば、更新された音声認識モデルは、更新がそれに基づく現在の発話を再処理するために使用されてもよく、または更新された音声認識モデルは、後続する発話を処理するために使用されてもよく、またはその両方でもよい。
本開示の追加の態様は、追加の音声認識モデルをキャッシュすることに関する。追加の音声認識モデルをキャッシュすることによって、それらは、後続して受信される発話の処理における使用のために、即時にまたは実質的により速くアクセスされることができ、発話の基礎音声認識モデルでの処理と実質的に同一量の時間で、より正確な結果を提供する。例えば、音声認識サーバは、クライアント装置から受信される発話に関する音声データを処理するために、追加の音声認識モデルを検索し得る。追加の音声認識モデルが、第1の発話を処理するために適時で到着するかどうかに関わらず、それらは、第2の発話に関する後続して受信される音声データを処理するために、キャッシュされ、使用され得る。
本開示の更なる態様は、どの追加モデルが要求され得るか、およびそれらがいつ要求され得るかの予測に基づいて、追加の音声認識モデルを事前キャッシュすることに関する。例えば、音声認識システムとのユーザ相互作用は、音声認識システムの構成要素が、パターンを検出する、またはユーザが音声認識システムを使用する可能性がある将来の時間を予測することができるように、監視され得る。そのような使用の予期において、要求される可能性がある追加の音声認識モデルは、事前キャッシュされ得る(例えば、長期記憶から検索され、音声認識サーバまたは何らかのネットワークアクセス可能キャッシュ構成要素上に記憶される)。
本開示に記載される実施形態の態様は、図示の目的のために、発話に関する音声データを受信し、音声データを処理するために追加の音声認識モデルを非同期に検索する音声認識サーバに注目するものの、当業者は、本明細書に開示される技術があらゆる数のソフトウェア工程または応用に適用され得ることを理解するであろう。例えば、ユーザのパーソナル携帯装置は、音声認識エンジンを含み、発話のローカル処理中に使用するための追加の音声認識モデルを非同期に要求し得る。本開示の様々な態様が、本開示を限定することではなく図示することが意図される、特定の実施例および実施形態に関して、これより記載される。
例示的な実施例を参照して、ユーザは、音声命令を発するか、または別の様式で、携帯電話またはタブレットコンピュータなどのクライアント装置と口頭で相互作用することができる。クライアント装置は、分散自動音声認識(「分散ASR」)システムの一部として、ユーザの発話に関するデータをネットワークアクセス可能音声認識サーバに送信し得る。音声認識サーバは、音響モデルおよび言語モデルなどの様々な種類の音声認識モデルを使用して、発話を処理して、転写、またはさもなければユーザが言ったことを決定し得る。正確性を改良するために、モデルは、様々なレベルのユーザに対してカスタマイズされ得る。音声認識サーバは、基礎モデル、性別、年齢、地域的アクセント、用語などのモデルを使用し得る。音声認識モデルはまた、特定のユーザまたは特定の時間、曜日など(例えば、休日の用語の言語モデル)のためにカスタマイズされ得る。追加の音声認識モデルは大きくある可能性があり、結果として、音声認識サーバは、各追加モデルを記憶するのに十分な記憶容量を有さない可能性がある。追加の音声認識モデルを利用する分散ASRシステムは、音声認識エンジンが使用し得る各追加の音声認識モデルが、記憶され、必要に応じて音声認識エンジンに提供され得るように、追加モデルの長期記憶を実装し得る。
分散ASRシステムについてのユーザ経験は、質(例えば、結果の正確性)および知覚性能(例えば、発話を話すことと結果を受信することとの間の待ち時間および経過時間)の両方の観点から定義され得る。分散ASRシステムは、できるだけ速く結果を返すよう勤める。しかしながら、分散および他のネットワークシステムに特有の待ち時間は、ユーザ経験に直接影響を与える。結果として、追加の音声認識モデルの長期記憶からの検索によって引き起こされるあらゆる追加の遅延は、不満足なユーザ経験につながり得る。
追加の音声認識モデルの使用が分散ASRシステムに導入し得る、負の影響を最小化するために、追加モデルが非同期に要求され得る(例えば、追加の音声認識モデルの検索は、他のモデルでの音声認識工程の実行を妨害せず、逆もまた同様である)。例えば、音声認識サーバは追加モデルを要求し、平行して、または非同期で音声認識を基礎モデルで実行するために、マルチスレッド処理を利用し得る。発話または発話に関するデータが受信される際、音声認識サーバは話者の身分および/または話者の特徴(例えば、性別)を決定し得る。音声認識サーバは、発話の処理の前、平行して、または後続して追加の音声認識モデルを検索し得る。異なる種類の追加の音声認識モデルを検索することは、異なる待ち時間を有し得るため、音声認識サーバまたは分散ASRシステムのいくつかの他の構成要素は、任意の数の異なる追加モデルを要求し、モデルを使用し、ユーザ経験に悪影響を与えずに結果を返すために、適時に受信される最良のものを使用し得る。例えば、音声認識サーバは、個人ユーザのモデルおよびユーザの性別のモデルもまた要求し得る。性別のモデルが最初に受信される場合、音声認識サーバは、発話を性別特定的追加の音声認識モデルで処理することに進行し得る。しかしながら、特定のユーザのモデルが、不満足な遅延を引き起こすことなくそれを使用するために適時に受信される場合、音声認識サーバは、それが別のモデルでの音声認識処理を開始している、または完了している場合でも、そのよりカスタマイズされた追加モデルを使用し得る。
いくつかの実施形態において、コンテンツサーバは、発話を再処理し得る(例えば、単一の発話上に音声認識を複数回実行するように構成されたマルチパスASRシステム)。音声認識サーバ、またはASRを実行するいくつかの他の装置は、利用可能な少なくとも1組の基礎音声認識モデルを有してもよく、または利用可能な少数の追加の選択肢(例えば、性別特定的音声認識モデル)を有してもよい。利用可能なモデル(例えば、基礎モデル)で第1の音声認識処理パスを行う後、追加モデルが適時に検索される場合、第2のパスが行われ得る。追加のまたはより特定的な追加の音声認識モデルが、第1のパスの後に返されない場合、結果はクライアント装置に返され得る。
言語モデルなどの、多くのより大きい音声認識モデルについて、それを実時間の音声認識のために使用することができるように、十分に迅速に追加モデルを検索することは困難であり得る。追加の音声認識モデルをキャッシュすることは、それらがより迅速に検索されることを可能にする。例えば、任意のユーザ特定的または別の様式でカスタマイズされた追加の音声認識モデルは、大容量だが比較的遅い応答時間を有するデータストア内に記憶され得る。別のデータストアは、追加の音声認識モデルをより一層迅速に返すキャッシュとして使用され得る。キャッシュは、最近最も使われていない(「LRU」)基準に基づいて追加の音声認識モデルを終了させ得る。
ユーザがクライアント装置に話す際、ASRシステムは、キャッシュからユーザ特定的音声認識モデルを積極的に要求し得る。キャッシュミスがある場合、ASRシステムは最良の利用可能モデル(例えば、音声認識サーバ上に記憶された基礎モデル、またはキャッシュ内で利用可能な異なる追加モデル)で進行し得る。キャッシュミスは、ユーザ特定的音声認識モデルがキャッシュに追加されることを引き起こすであろう。ユーザは、典型的に、短期間の複数の発話(例えば、2つ以上の発話の音声認識セッション)を処理するためにASRシステムを利用するため、あらゆる検索されたユーザ特定的モデルは、第1の相互作用以外の全てに利用可能であり得る。
更に、分散ASRシステムは、分散ASRシステムとのユーザ相互作用に関するデータを記録し得る。そのようなデータは、パターンを検出する、および/またはユーザがいつ分散ASRシステムを使用する可能性があるかに関する予測を行うために使用され得る。ユーザ特定的または他の追加の音声認識モデルは、それらが予測された時間に利用可能であるように事前キャッシュされ得る。例えば、ユーザは、平日毎朝午前8:00頃に、職場へと運転しながら分散ASRシステムを使用し得る。そのようなパターンを検出した後、分散ASRシステムは、ユーザの追加モデルを、音声認識サーバ上またはネットワークキャッシュサーバ内に積極的にキャッシュし得る(例えば、7:30または7:55に)。ユーザが午前8:00頃に音声認識セッションを開始する際、追加モデルが即時に利用可能となり、基礎モデルでより正確な方法で、しかしさもなければ追加の音声認識モデルに関連付けられたであろう待ち時間または検索遅延なく、第1の発話を処理するために使用することができる。
いくつかの場合、音響モデルまたは言語モデルの全体を検索するよりむしろ、特定のユーザのために基礎音響または言語モデルをカスタマイズするために、カスタマイズされた統計およびモデルの一部が検索され、使用され得る。例えば、分散ASRシステムは、制約付き最尤線形回帰(「CMLLR」)変換、声道長正規化(「VTLN」)伸縮係数、ケプストラル平均および分散、複数のモデルを補間するための重さおよびベクトル等を使用し得る。有利なことに、モデルのそのような部分は、伝達されるデータの量の観点から、それらが使用され得る音響または言語モデルより典型的に小さい。したがって、モデルのカスタマイズまたは特殊化された部分の検索は、基礎モデルの使用を通して達成され得るより正確な結果を提供しながら、検索時間をより低減し、追加の音響または言語モデル全体の検索より少ない影響をユーザ知覚性能に与え得る。
更に、音声認識モデルおよびモデルの部分は、音声認識処理結果を使用して、更新される、または更にカスタマイズされ得る。モデルを更新するために、大きいデータセットが必要とされ得る。大きいデータセットの非同期検索は、音声認識モデルの非同期検索と同様に、ユーザ知覚性能に影響を与えずにデータセットを取得するために実装され得る。データセットが検索されると、それらは、追加の音声認識モデルおよびモデルの部分を更新するために使用され得る。更に、新しく更新されたモデルは、システム必要条件およびユーザ性能の期待に応じて、発話を処理する、または再処理するために、即時に使用され得る。
いくつかの実施形態において、本明細書に記載される技術は、ASRモデルの代わり、またはそれに加えて、追加の特殊化またはカスタマイズされた自然言語理解(「NLU」)モデルを検索するために使用され得る。例示的に、追加のNLUモデル(例えば、意図モデル、固有表現モデル、および地名辞典)は、基礎NLUモデルを使用してのテキストの処理と非同期に、または平行して、またはNLU処理の前に発生するASR処理中に要求され得る。追加のNLUモデルが検索される、または他の方法で利用可能になると、それらは、NLU結果を再計算するために使用され得るか、またはそれらは後続するNLU処理中に使用され得る。
分散ASRシステム環境
分散ASRシステムにおける追加の音声認識モデルの使用を管理するための工程の実施形態を詳細に記載する前に、工程が実装され得る例示的環境が記載される。図1は、クライアント装置102、ASRサーバ104、およびASRモデル記憶サーバ106を含むネットワーク環境を図示する。
クライアント装置102は、幅広い電子機器に対応し得る。いくつかの実施形態において、クライアント装置102は、1つ以上のプロセッサ、およびプロセッサによって実行されるソフトウェアアプリケーションを含むメモリを含む携帯装置であり得る。クライアント装置102は、音声認識を実行するための音声入力を受容するためのマイクロフォンまたは他の音声入力装置を含み得る。例示的に、クライアント装置102は、携帯電話、パーソナルデジタル端末(「PDA」)、携帯ゲーム装置、メディアプレーヤー、電子書籍リーダー、タブレットコンピュータ、ラップトップコンピュータ等であり得る。クライアント装置102のソフトウェアは、無線通信ネットワーク上の、または他のコンピュータ装置との直接の通信を確立するための構成要素を含み得る。
ASRサーバ104は、クライアント装置102から受信されるユーザの発話上に、自動音声認識を実行し得る。ASRサーバ104は、通信ネットワークを介して通信するように構成された任意のコンピュータシステムであり得る。例えば、ASRサーバ104は、複数のサーバコンピュータ装置、デスクトップコンピュータ装置、メインフレームコンピュータ等を含み得る。いくつかの実施形態において、ASRサーバ104は、音声認識を発話上に実行するように構成されたアプリケーションサーバコンピュータ装置、ならびに記録および音声認識モデルを記憶するように構成されたデータベースサーバコンピュータ装置などの、物理的または理論的にグループ化されたいくつかの装置を含み得る。いくつかの実施形態において、ASRサーバ104は、単一の装置上に組み合わされた様々なモジュールおよび構成要素、単一のモジュールまたは構成要素の複数の例などを含み得る。
図1に図示されるASRモデル記憶サーバ106は、ネットワークを介して、音声認識モデルを記憶し、モデルについての要求を行うための1つ以上のコンピュータ装置の論理結合に対応し得る。例えば、ASRモデル記憶サーバ106は、ASRサーバ104から音声認識モデルについての要求を取得し、処理するための、1つ以上のサーバコンピュータ装置に対応するデータベースサーバまたは記憶部品を含み得る。
ASRサーバ104は、通信ネットワークを介して、クライアント装置102および/またはASRモデル記憶サーバ106と通信し得る。ネットワークは、場合によっては、インターネットなどの様々な異なる個人によって操作される、連結されたネットワークの公開アクセス可能なネットワークであり得る。他の実施形態において、ネットワークは、それぞれがインターネットへの、および/またはそこからのアクセスを有する、プライベートネットワーク、パーソナルエリアネットワーク、ローカルエリアネットワーク、広域ネットワーク、有線ネットワーク、衛星ネットワークなど、またはこれらのいくつかの組み合わせを含み得る。例えば、ASRサーバ104およびASRモデル記憶サーバ106は、単一のデータセンター内に位置してもよく、法人または大学ネットワークなどのプライベートネットワークを介して通信してもよい。クライアント装置102は、インターネットを介してASRサーバ104と通信し得る。クライアント装置102は、有線またはWiFi接続を介して、または携帯電話ネットワーク(例えば、ロングタームエボリューション、すなわちLTEネットワーク)を介してインターネットへのアクセスを有し得る。いくつかの実施形態において、クライアント装置102は、ASRモデル記憶サーバ106に直接通信し得る。
いくつかの実施形態において、分散ASRシステムによって提供される機能およびサービスは、通信ネットワークを介して消費可能なウェブサービスとして実装され得る。更なる実施形態において、分散ASRシステムは、ホストコンピュータ環境において実装されるもう1つの仮想機械によって提供される。ホストコンピュータ環境は、コンピュータ、ネットワーク、および/または記憶装置を含み得る、1つ以上の迅速に設定され、解放される計算資源を含み得る。ホストコンピュータ環境はまた、クラウドコンピュータ環境とも称され得る。
動作中、クライアント装置102は、(A)でユーザから音声入力を受信し得る。クライアント装置102は、音声入力を受信するためにユーザによって起動されるアプリケーションソフトウェアを実行し得る。クライアント装置102は、一体型マイクロフォン、音声入力ジャック、または何らかの他の音声入力インターフェースを介して音声入力を受信し得る。いくつかの実施形態において、クライアント装置102は、ユーザが話し始める際、ユーザによる音声入力または音声認識機能の起動なしでも音声入力を自動的に受容し得る。
(B)でクライアント装置102は、音声入力についての音声信号または音声データを、ASRサーバ104に送信する。例えば、クライアント装置102は、インターネットを介して、ASRサーバ104または分散ASRシステムの何らかの他の構成要素(例えば、管理要素)との直接の接続を確立し得る。例示的に、複数のASRサーバ104を有する分散ASRシステムにおいて、管理要素は、複数のASRサーバ104にわたる処理負荷を平衡化するために実装され得る。クライアント装置102(またはそのユーザ)は、音声認識セッションの間中、特定のASRサーバ104に割り当てられても、または別の様式でそれに接続されてもよい。いくつかの実施形態において、音声認識セッションは、所与の期間内、または近い時間的近接性内での処理のためにASRサーバ104に送信される複数の発話を含み得る。
音声入力についての音声入力またはデータの受信時、ASRサーバ104は、(C)でASRモデル記憶サーバ106からの様々な追加の音声認識モデルの検索を開始し得る。例えば、ASRサーバ104は、ユーザの性別、地域的アクセントなどの、発話を行ったユーザに関するデータにアクセスまたはそれを受信し得る。データは、ユーザプロファイルに記憶されてもよく、音声データと共に送信される、または何らかの他の方法において取得される。ASRサーバ104は、その後、基礎モデルより正確な結果を生成するために使用され得る1つ以上の追加の音声認識モデルまたは統計のセット、またはASRサーバ104が即時アクセスを有する他のモデルを特定し得る。追加の音声認識モデルへの要求は、ASRモデル記憶サーバ106に送信され得る。
(D)でASRサーバ104は、ASRサーバ104が現在アクセスを有する最良の音声認識モデル、統計、および他のデータを使用して、発話の処理を開始し得る。いくつかの実施形態において、ASRサーバ104は、基礎音声認識モデルを記憶し得る。更に、ASRサーバ104は、性別に基づくモデルなどのしばしば使用される様々な追加モデルを記憶し得る。音声認識モデルは大量の記憶容量を消費し得るため、典型的な実装例において、ASRサーバ104は、少数の最も基礎的な、または頻繁に使用されるモデルのみを記憶し得る。
ASRサーバ104が、それが現在アクセスを有するモデルを使用して発話を処理する間、(C)で要求された追加モデルおよび他のデータが(E)で受信され得る。ASRサーバ104は追加モデルを非同期に要求し、他のモデルでの処理を開始することを進行したため、追加モデルは、ASRサーバ104が他のモデルでの発話の処理を完了する中、または後に到着し得る。
追加モデルが受信されると、それらは(F)で初期結果を再処理する、または再記録するために使用され得る。多くの場合、第1のパス処理が、おそらく再記録される可能性がある結果を狭めたため、再記録は、初期第1のパス音声認識処理よりかなり速く実行され得る。結果として、初期結果は、より適当なモデルで、実質的な量の遅延または待ち時間をその発話の全体の音声認識処理に追加することなく、再記録され得る。再記録が不満足な性能につながる、または結果の正確性を顕著に改良しないことが決定される場合、あるいはモデルがASRモデル記憶サーバ106から適時で受信されない場合、初期結果は、(G)でクライアント装置102に送信され得る。さもなければ、結果が再記録される場合、再記録された結果が(G)でクライアント装置102に送信され得る。
ここで、図2を参照すると、例示的ASRサーバ104が記載される。ASRサーバ104は、ASRエンジン140、ASRモデル更新モジュール142、管理モジュール144、基礎モデルデータストア146、およびモデルキャッシュ148を含み得る。ASRサーバ104のモジュール、構成要素、およびデータストアのうちのそれぞれは別個の装置として実装されてもよく、または様々な個別のモジュール、構成要素、およびデータストアは様々な組み合わせで単一の装置に組み合わされてもよい。
ASRエンジン140は、当業者によって理解されるように、入力(例えば、話される発話に関する音声入力またはデータのストリーム)を受信し、様々な音声認識モデルおよび他のデータを使用して、最も可能性がある発話の転写、または最も可能性がある発話の転写のリストを決定し得る。ASRモデル更新モジュール142は、ASRエンジン140からの結果および他のデータを使用して、追加モデル、より正確な結果を生成するために使用され得るモデルの部分を更新し得る。例えば、ASRエンジン140は、複数の音声認識セッションの過程で発展された、モデルのユーザ特定的または別の様式でカスタマイズされた部分のセットを使用し得る。例示的に、ASRエンジン140によって使用されるモデルの部分は、制約付き最尤線形回帰(「CMLLR」)変換、声道長正規化(「VTLN」)伸縮係数、ケプストラル平均および分散、複数のモデルを補間するための重さおよびベクトル等を含み得る。有利なことに、モデルのそのような部分は、完全な追加の音声認識モデル(例えば、言語モデルまたは音響モデル)と比較して、記憶、伝達、および使用中に、比較的少量の容量、帯域幅、処理容量、および他の資源を消費する。更に、モデルのそのような部分は、基礎音声認識モデル単独を使用することと比較して、依然として改良された正確性を音声認識工程に提供する。
最も最近の結果に基づいてモデルおよびモデルの部分を更新することは、大きいデータのセット(例えば、音響モデルが計算される、基礎データセット)へのアクセスを必要とし得る。ASRモデル更新モジュール142、またはASRサーバ104の他のモジュールまたは構成要素は、ASRエンジン140による音声認識処理中または後に、大きいデータセットを非同期に検索する。データセットが受信された際、それは、追加のユーザ特定的または別の様式でカスタマイズされたモデルおよびモデルの部分を更新するために使用され得る。その間、モデルおよびモデルの部分は、ASR処理中使用され続け得る。
管理モジュール144は、ASRエンジン140の進展、および追加の音声認識モデルの検索を監視し得る。管理モジュール144が、追加モデル(またはモデルの部分)の受信を待つことが不満足な性能遅延を引き起こさないことを決定する場合、管理モジュール144は、ASRエンジン140に、ASRエンジン140が追加モデルで結果を再記録する機会を有するまでクライアント装置102に結果を提供することを控えさせ得る。しかしながら、管理モジュール144が、追加モデルの受信を待つことが不満足な性能遅延を引き起こす、または結果の正確性を顕著に改良しないことを決定する場合、管理モジュール144は、初期結果が最終結果としてクライアント装置102に提供されることを可能にし得る。
基礎モデルデータストア146は、よりカスタマイズされた、特殊化された、または別の様式のより正確な追加モデルの不在下で、ASRエンジン140によって使用される基礎音響モデルおよび言語モデルを記憶し得る。そのような基礎モデルは、より正確な結果を提供するために、ユーザ特定的統計およびモデルの部分によってカスタマイズされ得る。いくつかの実施形態において、最も頻繁に使用される、または広く適切な追加モデル(例えば、性別特定的モデル)のうちの1つ以上は、必要な際に、それらが別個のASRモデル記憶サーバ106から検索される必要がないように、ASRサーバ104の基礎モデルデータストア146内に記憶され得る。
モデルキャッシュ148は、音声認識処理における使用のために検索される、追加モデルおよびデータを記憶するために使用され得る。例えば、キャッシュは、所定の、または動的に決定される量のデータを記憶するために構成され得る。キャッシュは、新しく受信されるモデルのための場所を作るために、最近使用または要求されていないそれらのモデルを削除、終了、または解放する一方で、最も最近検索された、または最も最近検索されたモデルのうちのできるだけ多くを記憶し得る。有効期間(「TTL」)および最近最も使われていない(「LRU」)基準の使用を含む、様々なキャッシュ技術がモデルキャッシュ148に適用され得る。
モデル検索を管理するための工程
ここで、図3を参照すると、音声認識モデルの非同期検索、およびこれらのモデルの使用を管理するためのサンプル工程300が記載される。有利なことに、ASRサーバ104は、工程300を使用して、そうすることが音声認識結果の正確性を改良し、知覚性能に悪影響を与えない場合、追加の音声認識モデルおよび他のデータを利用し得る。
工程300は、ブロック302で開始する。工程300は、ASRセッションの開始時に自動的に開始し得る。工程300は、負荷平衡化管理部または個別のASRサーバ104などの分散ASRシステムのコンピュータシステムのコンピュータ可読媒体(1つ以上のディスクドライブなど)上に記憶された実行可能なプログラム命令のセットにおいて実施され得る。工程300が開始する際、実行可能なプログラム命令は、RAMなどのメモリ内に読み込まれ、コンピュータシステムの1つ以上のプロセッサによって実行され得る。
ブロック304で、ASRセッションは、特定のASRサーバ104に割り当てられ得る。追加の音声認識モデルの検索のため、同一のユーザまたは同一のクライアント装置102からのASR処理のための後続する要求は、ASRセッションが終了するような時間(例えば、ある期間の経過後、または何らかの他の誘発事象の発生)まで同一のASRサーバ104に送信され得る。ASRサーバ104は、ユーザの性別、年齢、地域的アクセント、またはユーザの身分などのユーザに関するデータにアクセス、またはそれを取得し得る。この人口統計学または身分のデータを使用して、ASRサーバ104は、ブロック306で追加の音声認識モデルの検索を開始し得る。前述のように、いくつかの実施形態において、ASRサーバ104は、現在のユーザのために、完全な追加の音声認識モデルと比較すると、モデルの部分を検索し得る。そのような場合、ASRサーバ104はまた、ASR処理の結果に基づいて、モデルおよびモデルの部分を更新するために使用され得るブロック320でデータセット(複数可)の検索を開始し得る。いくつかの実施形態において、モデルの部分を更新するためのデータの検索は、資源がそのために利用可能である際、およびそのような検索および更新がASRセッションの処理と干渉しない際、データセットが検索され、更新されるように、ASR処理と非同期に行われる。
決定ブロック308において、ASRサーバ104は、要求された追加の音声認識モデルが、即時の使用に利用可能であるかどうかを決定し得る。例えば、要求されたモデルは、下記に詳述されるように、モデルキャッシュデータストア148において、または分散ASRシステムの別個のモデルキャッシュサーバにおいて利用可能であり得る。そのような場合、キャッシュされた追加モデルは、ブロック314での初期ASR処理中に、ASRサーバ104に利用可能な任意の基礎モデル(例えば、基礎モデルデータストア146内のモデル)の使用の有無のいずれかでアクセスされ、使用され得る。どの追加の音声認識モデルも利用可能でない場合、またはそれにもかかわらずASRサーバ104が基礎音声認識モデルを使用する場合、ASRサーバ104はブロック310で初期ASR処理パス中に基礎モデルを使用し得る。いくつかの実施形態において、要求された追加の音声認識モデルはキャッシュされ得るが、キャッシュからのモデルの検索における待ち時間のため、ASRサーバ104は基礎音声認識モデルを使用するであろう。
基礎音声認識モデルでの初期ASR処理パスの後に到達される決定ブロック312で、ASRサーバ104は、追加モデルが利用可能になっているかどうかを決定し得る。そうである場合、工程300は、ASRサーバ104が追加の音声認識モデルで第2のASRパス(例えば、初期結果を再記録する)を実行し得る、ブロック314に進行し得る。更に、任意の新しく受信された追加の音声認識モデルがキャッシュされ得る。
さもなければ、追加モデルがまだ受信されていない場合、あるいは追加モデルの使用が不満足な性能遅延を引き起こすこと、または正確性を顕著に改良しないことが決定される場合、工程300は、ブロック316に進行し得る。
ブロック316で、ASRサーバ104は、最終結果をクライアント装置102に送信し得る。いくつかの実施形態において、ASRサーバ104は、結果をクライアント装置102に送信するよりむしろ、何らかの動作を実行しても、または別の装置にある動作を実行させてもよい。例えば、ASR工程からの結果は、ユーザの発話からユーザの意図を決定するように構成された自然言語理解(「NLU」)要素に提供され得る。ユーザの意図(例えば、道順を得る、航空券を予約する、音声ダイヤルを開始する)に基づいて、ASRサーバ104は何らかの動作を実行し得る。
クライアント装置102に結果を送信する(または、何らかの他の動作の実行を引き起こす)後、ASRサーバ104は、決定ブロック318で同一のASRセッション中に処理するための追加の発話を待ち得る。別の発話が受信される場合、工程300は、ブロック306に戻り得る。さもなければ、ある期間別の発話が受信されない場合、または別の誘発事象が発生する(例えば、クライアント装置102の電源を切ることなどによって、ユーザがASRセッションを積極的に終了する)場合、工程300はブロック324で終了し得る。
追加の発話を待つことに加えて、ASRモデル更新モジュール142またはASRサーバ104のいくつかの他の構成要素は、ASR処理の結果に基づいてブロック322でデータセットを更新し得る。更新工程は、ブロック320で非同期に検索されたデータセットを利用し得る。その後、更新されたデータセットは、例えば、キャッシュされても、ASRモデル記憶サーバ106に送信されても、二次ASR処理パス中に使用されてもよい。いくつかの実施形態において、追加モデルまたはモデルの部分は、ブロック316と平行して、またはブロック314の直後などのようにデータセットを更新するためのASR結果が利用可能になるとすぐ、更新されたデータセットに基づいて更新または再計算され得る。
キャッシュモデルの工程および基本設計概念
ここで、図4を参照すると、ユーザ活動の予測に基づいて追加の音声認識モデルを事前キャッシュするためのサンプル工程400が記載される。有利なことに、工程400は、以前のユーザ活動を分析し、ユーザがいつ分散ASRシステムを利用する可能性があるかを予測し、それらが予測された時間に即時または実質的に即時の使用のために準備できているように追加モデルを事前キャッシュするために使用され得る。
工程400はブロック402で開始する。工程400は、ASRサーバ104または分散ASRシステムの何らかの他の構成要素の電源が入る際、自動的に開始してもよく、あるいはそれは手動で開始されてもよい。工程400は、分散ASRシステムが関連するコンピュータシステムのコンピュータ可読媒体(1つ以上のディスクドライブなど)上に記憶された実行可能なプログラム命令のセットにおいて実施され得る。工程400が開始する際、実行可能なプログラム命令は、RAMなどのメモリ内に読み込まれ、コンピュータシステムの1つ以上のプロセッサによって実行され得る。
ブロック404で、前述のように、分散ASRシステムは音声認識セッションを処理し得る。ブロック406で、特定のユーザのASRセッションに関する使用データは、ASRセッションが処理される際に記録され得る。例えば、音声認識セッションをホストするASRサーバ104の管理モジュール144は、ASR要求の日付および時間、結果の内容、要求の主題または文脈等を含む、ユーザまたはクライアント装置102に関するデータを記録し得る。
ブロック408で、管理モジュール144あるいは分散ASRシステムの何らかの他のモジュールまたは構成要素は、記録されたデータにおけるパターンを検出すること、またはユーザがいつ分散ASRシステムにアクセスする可能性があるかに関する予測を決定すすることができる。例えば、特定のユーザは、平日の朝の午前8:00またはその頃の処理のために、音声データを分散ASRシステムに定期的に送信し得る。分散ASRシステムの構成要素は、そのようなパターンを検出し、それに応じて、ユーザが次の平日の朝の午前8:00に再度音声データを送信することを予測し得る。更に、ユーザは、これらの午前8:00のセッション中に、全地球測位システム(「GPS」)の道順または音楽再生に関する音声命令を定期的に送信し得る。予測は、そのような詳細を含めることによってより特定的になり得る。そのような活動を標的とする追加の音声認識モデルは、詳細予測に基づいてキャッシュされ得る。
ブロック410で、分散ASRシステムは、次の平日の朝8:00の直前に、ユーザがASRセッションを開始することを予期してユーザの追加モデルを事前キャッシュし得る。例えば、ユーザは、ユーザがASRセッションを開始する前に、午前7:55または午前7:59に特定のASRサーバ104に積極的に割り当てられ得る。ユーザの追加モデルは、ユーザがセッションを開始する際それらが即時に使用され得るように、割り当てられたASRサーバ104で事前キャッシュされ得る。例えば、モデルは、ASRサーバ104のモデルキャッシュ148内に記憶され得る。事前キャッシュのために選択されたモデルは、ユーザの人口統計学または身分、予測されるセッションの主題、これらのいくつかの組み合わせなどに基づいて選択され得る。いくつかの実施形態において、下記に詳述されるように、追加モデルは、ASRモデル記憶サーバ106とASRサーバ104との間の中間キャッシュでキャッシュされ得る。そのような場合、複数のサーバが中間キャッシュからキャッシュされたモデルを検索し得るため、ユーザは特定のASRサーバ104に積極的に割り当てられなくてもよい。
いくつかの実施形態において、追加モデルがキャッシュされるべき時間は、特定の平均の予測またはアクセスの可能性がある時間よりむしろ、ユーザの以前のアクセス時間の分散に基づいて計算され得る。計算は、追加モデルが、ユーザの以前のまたは予測されるアクセス時間の閾値または割合に先行する時間に、キャッシュされることにつながる時間が選択されるようになされ得る。上記の例に戻ると、ユーザは、典型的に8:00頃にASRセッションを開始し得るが、時間の実際の分散は、午前7:30〜午前8:30まで延在する。管理モジュール144は、追加モデルを午前7:30にキャッシュし、その時間にユーザを特定のASRサーバ104に割り当てることが、追加モデルがユーザの「午前8:00」ASRセッションのうちの90%または99%で利用可能であることにつながることを決定し得る。
ブロック412で、ユーザは、分散ASRシステムでASRセッションを開始し得る。負荷平衡化要素、または分散ASRシステムの何らかの他の構成要素は、ユーザが、セッションについて、特定のASRサーバ104に既に関連付けられていることを決定することができ、キャッシュが期限切れとなっていない場合または閾値期間の経過後、予想外にもユーザがASRセッションを開始していない場合、発話データは積極的に割り当てられたASRサーバ104に送信され得る。例えば、ユーザが午前7:30〜午前8:30の間の時間にセッションを開始する場合、ユーザは、積極的に割り当てられたASRサーバ104に接続し、事前キャッシュの利益を実現し得る。しかしながら、ユーザが午前9:00までセッションを開始しない場合、またはより最近要求または使用されたモデルのための場所を作るために、キャッシュされたモデルが解放された場合、例えば、図3に関して前述されるように、ユーザのASRセッションは、任意の他のユーザのASRセッションとして処理され得る。
いくつかの実施形態において、音声認識モデルは、最近のユーザ相互作用または環境要因に基づいて、断定的に読み込まれても、事前キャッシュされてもよい。例えば、クライアント装置102は、マイクロフォンからの入力を監視することができ、装置との物理的な相互作用なく(例えば、ボタンを押すこと、またはタッチスクリーンと相互作用することなく)ASRセッションを開始するために、ユーザによって話される特定の語または語句を認識するように構成される。いくつかの場合、ASRセッションの開始を示す語または語句がユーザによって発話されたかどうかを決定するために、マイクロフォンからの音声入力は、特定の条件が満たされる(例えば、予備分析は、それが環境騒音とは対照的に発話であることを示す)際、分散ASRシステムに送信され得る。いくつかの場合、部屋に入るユーザはクライアント装置102にすぐに話し得るため、クライアント装置102はユーザの存在の部屋を監視し得る。クライアント装置102が(例えば、感知器を使用して、ビデオ信号上への画像処理を使用して、または音声信号上への信号処理を使用して)ユーザの存在を検出する際、ユーザがクライアント装置102での音声認識をすぐに開始し得ることを示すメッセージが分散ASRシステムに送信され得る。これらの、および他の場合、追加の音声認識モデルは、完全な発話が処理のために分散ASRシステムに送信される前に、ユーザのために読み込まれ得る。
図5Aおよび5Bは、分散ASRシステム110における多段ASRモデル記憶およびキャッシュのための例示的な基本設計概念を示す。分散ASRシステム110は、複数のASRサーバ104a、104b、長期ASRモデル記憶サーバ106、および高速ASRモデルキャッシュ108を含み得る。ASRサーバ104a、104bは、物理的近接性で、または通信を交換するために必要とされる時間の量またはネットワークホップの数の観点からのいずれかで測定される、それらがASRモデル記憶サーバ108に対するより、高速ASRモデルキャッシュ108の近くに位置し得る。更に、ASRモデルキャッシュ108は、ASRモデル記憶サーバ106より少ない容量であるが、より速い性能を提供する異なるハードウェアを利用し得る。いくつかの実施形態において、分散ASRシステム110は、毎nASRサーバ104(nは任意の数であり得る)に対する1つのASRモデルキャッシュ108などの複数のASRモデルキャッシュ108を含み得る。
クライアント装置102aは、(A)での処理のために、音声データを分散ASRシステム110に送信し得る。追加の音声認識モデルに対する要求は、(B)でASRサーバ104aから、ASRモデル記憶サーバ106の代わりにASRモデルキャッシュ108に対してなされ得る。ASRモデルキャッシュ108が要求されたモデルを利用可能に有している場合、キャッシュされたモデルは、それが長期ASRモデル記憶サーバ106から音声認識を検索するのにかかるより有意に速く、ASRサーバ104aに返され得る。ASRモデルキャッシュ108が要求されたモデルを有していない場合、ASRモデルキャッシュ108は、(C)でASRモデル記憶サーバ106から要求されたモデルを検索し、(D)で音声認識モデルの複製をキャッシュし、(E)で要求するASRサーバ104aに複製を転送し得る。様々なキャッシュ技術が、有効期間(「TTL」)および最近最も使われていない(「LRU」)基準の使用を含む、ASRモデルキャッシュ108によって適用され得る。ASRサーバ104aは、(F)で結果をクライアント装置102aに送信してもよく、またはASR結果に基づいて何らかの動作を実行してもよい。
有利なことに、新しくキャッシュされた音声認識モデルに対する後続する要求は、ASRモデル記憶サーバ108からよりむしろ、ASRモデルキャッシュ108から行われ得る。例えば、クライアント装置102aは、音声データを同一のASRサーバ104a、または異なるASRサーバ104bに提出してもよく、どちらの場合も、ASRモデル記憶サーバ106からの検索を必要とすることなく、追加の音声認識モデルはASRモデルキャッシュ108から検索され得る。別の例として、音声データは、異なるクライアント装置102bから受信され、同一のASRサーバ104aまたは異なるASRサーバ104bによって処理され得る。図5Bに見られるように、第2のクライアント装置102bは、(G)で音声データを分散ASRシステム110に送信し得る。第2のASRサーバ104bは、音声データを処理することができ、(H)でASRモデルキャッシュ108から同一の追加の音声認識モデルを要求する。モデルは以前にキャッシュされているため、要求されたモデルは、(I)でASRモデル記憶サーバ106からそれらを検索することなく、ASRサーバ104Bに返され得る。ASRサーバ104bは、(J)で結果をクライアント装置102bに送信しても、またはASR結果に基づいて何らかの動作を実行してもよい。
用語
実施形態に応じて、本明細書に記載されるいかなる工程またはアルゴリズムの特定の活動、事象、または機能も、異なる順序で実行されることができ、追加、結合、または完全に除外されることができる(例えば、記載される動作または事象の全てが、アルゴリズムの実行に必要ではない)。更に、実施形態において、動作または事象は、連続的によりむしろ、同時に、例えば、マルチスレッド処理、割り込み処理、あるいは複数のプロセッサまたはプロセッサコアを通して、または他の平行基本設計概念上で実行され得る。
本明細書に開示される実施形態に関連して記載される、様々な例示的論理的ブロック、モジュール、手順およびアルゴリズム段階は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組み合わせとして実装され得る。ハードウェアおよびソフトウェアのこの互換性を明確に図示するために、様々な例示的構成要素、ブロック、モジュールおよび段階が、一般にそれらの機能性の観点から以上に記載されている。そのような機能性が、ハードウェアまたはソフトウェアとして実装されるかどうかは、特定のアプリケーションおよび全体のシステムに課される設計制約に依存する。記載される機能性は、各特定のアプリケーションのための異なる方法において実装され得るが、そのような実装決定は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。
本明細書に開示される実施形態に関連して記載される方法、工程、手順、またはアルゴリズムの段階は、直接ハードウェア内で、プロセッサによって実行されるソフトウェアモジュール内で、またはこの2つの組み合わせにおいて実施され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または非一時的コンピュータ可読記憶媒体の任意の他の形態内に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取れる、およびそこに情報を書き込めるように、プロセッサに結合され得る。代替手段において、記憶媒体は、プロセッサに不可欠であり得る。プロセッサおよび記憶媒体は、ASIC内に存在し得る。ASICは、ユーザ端末内に存在し得る。代替手段において、プロセッサおよび記憶媒体は、別々の構成要素としてユーザ端末内に存在し得る。
数ある中でも、「できる」、「できる」、「してもよい」、「し得る」、「例えば」等の、本明細書で使用される条件語は、別途具体的に述べられない、または使用される文脈内で別途理解されない限り、一般に、他の実施形態が含まない一方で、特定の実施形態は特定の特性、要素、および/または段階を含むことを伝えることが意図される。したがって、そのような条件語は、一般に、特性、要素、および/または段階が1つ以上の実施形態に何としても必要であること、あるいは1つ以上の実施形態が、筆者の情報提供または促進の有無に関わらず、これらの特性、要素、および/または段階が任意の特定の実施形態において含まれる、または実行されるべきであるかどうかを決定するための論理を必然的に含むことを含意することが意図されない。「含む(comprising)」、「含む(including)」、「有する」等の用語は同義であり、無制限な方法で包括的に使用され、追加の要素、特性、活動、動作などを排除しない。また、「または」という用語は、(その排他的な意味ではなく)その包括的な意味で使用されて、例えば、要素のリストを接続するために使用される際、「または」という用語は、そのリスト内の要素のうちの1つ、いくつか、または全てを意味する。
「X、Y、およびZのうちの少なくとも1つ」という語句などの接続語は、特に別段に述べられない限り、項目、用語などが、X、Y、またはZ、またはこれらの組み合わせのいずれかであり得ることを伝えるために、一般に使用される文脈で理解されるものとする。したがって、そのような接続語は、特定の実施形態がXのうちの少なくとも1つ、Yのうちの少なくとも1つ、およびZのうちの少なくとも1つがそれぞれ存在することを必要とすることを含意することが一般に意図されない。
以上の詳述が、様々な実施形態に適用されるような新規の特性を示し、記載し、指摘している一方で、図示される装置またはアルゴリズムの形態および詳細における様々な省略、代用、および変更が、本開示の精神から逸脱することなくなされ得ることが理解され得る。認識され得るように、本明細書に記載される発明の特定の実施形態は、いくつかの特性は他とは別個に使用または実行され得るため、本明細書に説明される特性および利益の全てを提供しない形態内で実施され得る。本明細書に開示される特定の発明の範囲は、前述の記載によってよりむしろ添付の特許請求の範囲によって示される。特許請求の範囲の等価性の意味および範囲内にある全ての変更は、それらの範囲内に包含されるべきである。
付記:
1.実行可能な命令を記憶するコンピュータ可読メモリと、
該コンピュータ可読メモリと通信する1つ以上のプロセッサであって、該実行可能な命令によって、
クライアント装置から、ユーザの発話を含む音声データを受信することと、
追加の音声認識モデルが利用可能でないことを決定することと、
第1の音声認識処理を、該音声データ上に基礎音声認識モデルを使用して実行し、第1の音声認識結果を生成することと、
ネットワークアクセス可能なデータストアから該追加の音声認識モデルを要求することであって、該第1の音声認識処理の完了前に開始される、要求することと、
該ネットワークアクセス可能なデータストアから該追加の音声認識モデルを受信することと、
第2の音声認識処理を、該追加の音声認識モデルを使用して、かつ該音声データまたは該音声認識結果のうちの少なくとも1つを使用して実行することと、
該第2の音声認識処理に少なくとも一部基づく応答を、該クライアント装置に送信することと、を行うようにプログラムされた、1つ以上のプロセッサと、を備える、システム。
2.該基礎音声認識モデルが、一般音響モデル、性別特定的音響モデル、または一般言語モデルのうちの少なくとも1つを含み、該追加の音声認識モデルが、該ユーザの発話に関連するユーザの特徴に少なくとも一部基づいて選択される、付記1に記載のシステム。
3.該1つ以上のプロセッサが、該実行可能な命令によって、
該クライアント装置から、第2のユーザの発話を含む第2の音声データを受信することと、
該追加の音声認識モデルが利用可能であることを決定することと、
音声認識処理を、該第2の音声データ上に該追加の音声認識モデルを使用して実行することと、を行うように更にプログラムされている、付記1に記載のシステム。
4.該1つ以上のプロセッサが、該実行可能な命令によって、マルチスレッド処理を使用して、該第1の音声認識処理の実行と平行して、該追加の音声認識モデルを検索するように更にプログラムされている、付記1に記載のシステム。
5.該1つ以上のプロセッサが、該実行可能な命令によって、該追加の音声認識モデルをキャッシュするように更にプログラムされている、付記1に記載のシステム。
6.特定のコンピュータ実行可能な命令で構成された1つ以上のコンピュータ装置の制御下で、
第1の音声処理を、ユーザの発話に関する音声データ上に実行して、音声処理結果を生成することと、
ネットワークアクセス可能なデータストアから音声処理データを要求することであって、該第1の音声処理の完了前に開始される、要求することと、
該ネットワークアクセス可能なデータストアから該音声処理データを受信することと、
第2の音声処理を、該音声処理データ、および該音声データまたは該音声処理結果のうちの少なくとも1つを使用して実行することと、を含む、コンピュータ実装方法。
7.該ユーザの特徴に少なくとも一部基づいて、要求する音声処理データを選択することを更に含む、付記6に記載のコンピュータ実装方法。
8.該ユーザの該特徴が、該ユーザの性別、年齢、地域的アクセント、または身分を含む、付記7に記載のコンピュータ実装方法。
9.該音声処理データが、音響モデル、言語モデル、言語モデル統計、制約付き最尤線形回帰(「CMLLR」)変換、声道長正規化(「VTLN」)伸縮係数、ケプストラル平均および分散データ、意図モデル、固有表現モデル、または地名辞典のうちの少なくとも1つを含む、付記6に記載のコンピュータ実装方法。
10.該音声処理データを更新するための統計を要求することであって、該第1の音声処理の完了前に開始される、統計を要求することを更に含む、付記9に記載のコンピュータ実装方法。
11.該統計および該第2の音声処理の結果に少なくとも一部基づいて、該音声処理データを更新することを更に含む、付記10に記載のコンピュータ実装方法。
12.該音声処理データをキャッシュすることを更に含む、付記6に記載のコンピュータ実装方法。
13.該ユーザの第2の発話に関する第2の音声データを受信することと、
キャッシュから該音声処理データを検索することと、
音声処理を、該第2の音声データ上に該音声処理データを使用して実行することと、を更に含む、付記12に記載のコンピュータ実装方法。
14.該音声認識データをキャッシュすることが、該音声認識データを該ネットワークアクセス可能なデータストアとは別個のキャッシュサーバに記憶することを含む、付記12に記載のコンピュータ実装方法。
15.該音声認識データを検索することが、該音声認識データのキャッシュされた複製を検索することを含む、付記12に記載のコンピュータ実装方法。
16.該音声認識データをキャッシュすることが、
ユーザが音声認識セッションを開始する可能性がある時間を決定することと、
該音声認識データを実質的に決定された時間にキャッシュすることと、を含む、付記12に記載のコンピュータ実装方法。
17.該ユーザによって操作されるクライアント装置から該音声データを受信することと、
該第2の音声認識処理に少なくとも一部基づく応答を、該クライアント装置に送信することと、を更に含む、付記6に記載のコンピュータ実装方法。
18.該第2の音声認識処理に少なくとも一部基づいて動作を実行することを更に含む、付記6に記載のコンピュータ実装方法。
19.プロセッサによって実行される際、コンピュータ装置に、
第1の音声認識処理を、ユーザの発話に関する音声データ上に実行して、音声認識結果を生成することと、
ネットワークアクセス可能なデータストアから音声認識データを要求することであって、該第1の音声認識処理の完了前に開始される、要求することと、
該ネットワークアクセス可能なデータストアから該音声認識データを受信することと、
第2の音声認識処理を、該音声認識データおよび該音声データまたは該音声認識結果のうちの少なくとも1つを使用して実行することと、を含む工程を実行させる、実行可能なコードを含む非一時的コンピュータ可読媒体。
20.該工程が、
音声データが受信される日付または時間のうちの1つに少なくとも一部基づいて、要求する音声認識データを選択することを更に含む、付記19に記載の非一時的コンピュータ可読媒体。
21.該工程が、
該ユーザに関連する特徴に少なくとも一部基づいて、要求する音声認識データを選択することを更に含む、付記19に記載の非一時的コンピュータ可読媒体。
22.該ユーザに関連する該特徴が、該ユーザの性別、年齢、地域的アクセント、身分、または該ユーザが関連する集団の身分のうちの1つを含む、付記21に記載の非一時的コンピュータ可読媒体。
23.該音声認識データが、音響モデル、言語モデル、言語モデル統計、制約付き最尤線形回帰(「CMLLR」)変換、声道長正規化(「VTLN」)伸縮係数、ケプストラル平均および分散データ、意図モデル、固有表現モデル、または地名辞典を含む、付記19に記載の非一時的コンピュータ可読媒体。
24.該工程が、
該音声認識データを更新するための統計を要求することであって、該第1の音声認識処理の完了前に開始される、統計を要求することを更に含む、付記23に記載の非一時的コンピュータ可読媒体。
25.該工程が、
該第2の音声認識処理の該統計および結果に少なくとも一部基づいて、該音声認識データを更新することを更に含む、付記24に記載の非一時的コンピュータ可読媒体。
26.該工程が、
該音声認識データをキャッシュすることを更に含む、付記19に記載の非一時的コンピュータ可読媒体。
27.該音声認識データを検索することが、該音声認識データのキャッシュされた複製を検索することを含む、付記19に記載の非一時的コンピュータ可読媒体。
28.該工程が、
該ユーザによって操作されるクライアント装置から該音声データを受信することと、
該第2の音声認識処理に少なくとも一部基づく応答を、該クライアント装置に送信することと、を更に含む、付記19に記載の非一時的コンピュータ可読媒体。
29.該工程が、
該第2の音声認識処理に少なくとも一部基づいて動作を実行することを更に含む、付記19に記載の非一時的コンピュータ可読媒体。

Claims (15)

  1. 実行可能な命令を記憶するコンピュータ可読メモリと、
    前記コンピュータ可読メモリと通信する1つ以上のプロセッサと、
    を備えるシステムであって、
    前記1つ以上のプロセッサは、前記実行可能な命令によって、
    クライアント装置から、ユーザの発話を含む音声データを受信し、
    追加の音声認識モデルが利用可能でないことを決定し、
    前記音声データ上で基礎音声認識モデルを使用して、第1の音声認識処理を実行し、第1の音声認識結果を生成し、
    前記追加の音声認識モデルをネットワークアクセス可能なデータストアから要求し、前記要求は、前記第1の音声認識処理の完了前に開始され、
    前記追加の音声認識モデルを前記ネットワークアクセス可能なデータストアから受信し、
    第2の音声認識処理を、前記追加の音声認識モデルを使用して、かつ、前記音声データおよび前記音声認識結果のうちの少なくとも1つを使用して実行し、
    前記第2の音声認識処理に少なくとも部分的に基づき、応答を前記クライアント装置に送信する、
    ようにプログラムされている、
    システム。
  2. 前記基礎音声認識モデルは、一般音響モデル、性別特定的音響モデル、および、一般言語モデルのうちの少なくとも1つを含み、
    前記追加の音声認識モデルは、前記ユーザの発話に関連するユーザの特徴に少なくとも部分的に基づいて選択される、
    請求項1に記載のシステム。
  3. 前記1つ以上のプロセッサは、前記実行可能な命令によって、
    前記クライアント装置から、第2のユーザの発話を含む第2の音声データを受信し、
    前記追加の音声認識モデルが利用可能であることを決定し、
    前記第2の音声データ上で前記追加の音声認識モデルを使用して、音声認識処理を実行する、
    ようにさらにプログラムされている、
    請求項1に記載のシステム。
  4. 前記1つ以上のプロセッサは、前記実行可能な命令によって、マルチスレッド処理を使用して、前記第1の音声認識処理の実行と平行して、前記追加の音声認識モデルを検索するようにさらにプログラムされている、
    請求項1に記載のシステム。
  5. 前記1つ以上のプロセッサは、前記実行可能な命令によって、前記追加の音声認識モデルをキャッシュするようにさらにプログラムされている、
    請求項1に記載のシステム。
  6. コンピュータ実装方法であって、前記方法は、特定のコンピュータ実行可能な命令で構成された1つ以上のコンピュータ装置の制御下で、
    ユーザの発話に関する音声データ上で第1の音声処理を実行して、音声処理結果を生成するステップと、
    ネットワークアクセス可能なデータストアから音声処理データを要求するステップであって、前記第1の音声処理の完了前に開始される要求ステップと、
    前記ネットワークアクセス可能なデータストアから前記音声処理データを受信するステップと、
    第2の音声処理を、前記音声処理データと、前記音声データおよび前記音声処理結果のうちの少なくとも1つと、を使用して実行するステップと、
    を含むコンピュータ実装方法。
  7. 前記ユーザの特徴に少なくとも部分的に基づいて、要求する音声処理データを選択するステップをさらに含む、
    請求項6に記載のコンピュータ実装方法。
  8. 前記ユーザの前記特徴は、前記ユーザの性別、年齢、地域的アクセント、または、身分を含む、
    請求項7に記載のコンピュータ実装方法。
  9. 前記音声処理データは、音響モデル、言語モデル、言語モデル統計、制約付き最尤線形回帰(「CMLLR」)変換、声道長正規化(「VTLN」)伸縮係数、ケプストラル平均および分散データ、意図モデル、固有表現モデル、および、地名辞典のうちの少なくとも1つを含む、
    請求項6に記載のコンピュータ実装方法。
  10. 前記音声処理データを更新するための統計を要求するステップであって、前記第1の音声処理の完了前に開始される要求するステップをさらに含む、
    請求項9に記載のコンピュータ実装方法。
  11. 前記統計および前記第2の音声処理の結果に少なくとも部分的に基づいて、前記音声処理データを更新するステップをさらに含む、
    請求項10に記載のコンピュータ実装方法。
  12. 前記音声処理データをキャッシュするステップをさらに含む、
    請求項6に記載のコンピュータ実装方法。
  13. 前記ユーザの第2の発話に関する第2の音声データを受信するステップと、
    前記音声処理データをキャッシュから検索するステップと、
    前記第2の音声データ上で前記音声処理データを使用して、音声処理を実行するステップと、
    をさらに含む、
    請求項12に記載のコンピュータ実装方法。
  14. 前記音声認識データをキャッシュするステップは、
    ユーザが音声認識セッションを開始する可能性がある時間を決定するステップと、
    前記音声認識データを実質的に決定された時間でキャッシュするステップと、
    を含む、
    請求項12に記載のコンピュータ実装方法。
  15. 前記ユーザによって操作されるクライアント装置から前記音声データを受信するステップと、
    前記第2の音声認識処理に少なくとも部分的に基づく応答を、前記クライアント装置に送信するステップと、
    をさらに含む、
    請求項6に記載のコンピュータ実装方法。
JP2015547478A 2012-12-12 2013-12-10 分散音声認識システムにおける音声モデル検索 Active JP6096319B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/712,891 US9190057B2 (en) 2012-12-12 2012-12-12 Speech model retrieval in distributed speech recognition systems
US13/712,891 2012-12-12
PCT/US2013/074192 WO2014093384A1 (en) 2012-12-12 2013-12-10 Speech model retrieval in distributed speech recognition systems

Publications (2)

Publication Number Publication Date
JP2015537258A true JP2015537258A (ja) 2015-12-24
JP6096319B2 JP6096319B2 (ja) 2017-03-15

Family

ID=49881093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015547478A Active JP6096319B2 (ja) 2012-12-12 2013-12-10 分散音声認識システムにおける音声モデル検索

Country Status (5)

Country Link
US (2) US9190057B2 (ja)
EP (1) EP2932501B1 (ja)
JP (1) JP6096319B2 (ja)
CN (1) CN105122354B (ja)
WO (1) WO2014093384A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198132A1 (ja) 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
JP2022530942A (ja) * 2019-05-06 2022-07-05 グーグル エルエルシー 口頭またはタイプされた発話のオンデバイス分析を可能にするためのクライアントデバイスにおけるアシスタントアクションコンテンツのプロアクティブキャッシング

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR102073102B1 (ko) * 2013-03-21 2020-02-04 삼성전자 주식회사 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US20150149169A1 (en) * 2013-11-27 2015-05-28 At&T Intellectual Property I, L.P. Method and apparatus for providing mobile multimodal speech hearing aid
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
JP2016009193A (ja) * 2014-06-23 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザ適合音声認識
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别***以及声音识别方法
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
JP6118838B2 (ja) * 2014-08-21 2017-04-19 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105162836B (zh) * 2015-07-29 2017-10-31 百度在线网络技术(北京)有限公司 执行语音通信的方法及服务器
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR20170033722A (ko) * 2015-09-17 2017-03-27 삼성전자주식회사 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10002125B2 (en) * 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10192555B2 (en) 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US9761227B1 (en) 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理***
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
JP6751658B2 (ja) 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
US11605081B2 (en) * 2016-11-21 2023-03-14 Samsung Electronics Co., Ltd. Method and device applying artificial intelligence to send money by using voice input
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
KR102384641B1 (ko) * 2017-02-20 2022-04-08 엘지전자 주식회사 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3493202B1 (en) * 2017-05-16 2020-07-22 Apple Inc. Far-field extension for digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10410635B2 (en) * 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN109243430B (zh) * 2017-07-04 2022-03-01 北京搜狗科技发展有限公司 一种语音识别方法及装置
KR102413282B1 (ko) * 2017-08-14 2022-06-27 삼성전자주식회사 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、***及存储介质
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11488602B2 (en) * 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US20190279613A1 (en) * 2018-03-06 2019-09-12 Ford Global Technologies, Llc Dialect and language recognition for speech detection in vehicles
US10460734B2 (en) 2018-03-08 2019-10-29 Frontive, Inc. Methods and systems for speech signal processing
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN111903194B (zh) * 2018-04-02 2024-04-09 昕诺飞控股有限公司 使用连接的照明***来增强语音命令的***和方法
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN110858479B (zh) 2018-08-08 2022-04-22 Oppo广东移动通信有限公司 语音识别模型更新方法、装置、存储介质及电子设备
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11056111B2 (en) * 2018-11-15 2021-07-06 Amazon Technologies, Inc. Dynamic contact ingestion
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020145545A1 (en) * 2019-01-08 2020-07-16 Samsung Electronics Co., Ltd. Method and system for performing speech recognition in an electronic device
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2020246649A1 (ko) * 2019-06-07 2020-12-10 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
EP3757991A1 (en) * 2019-06-26 2020-12-30 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
CN114303132B (zh) * 2019-08-22 2024-03-01 三星电子株式会社 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和***
US10607611B1 (en) 2019-09-06 2020-03-31 Verbit Software Ltd. Machine learning-based prediction of transcriber performance on a segment of audio
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP7342606B2 (ja) * 2019-10-23 2023-09-12 日本電気株式会社 情報処理装置、アクセス制御方法及びアクセス制御プログラム
US11900817B2 (en) 2020-01-27 2024-02-13 Honeywell International Inc. Aircraft speech recognition systems and methods
US11676496B2 (en) 2020-03-19 2023-06-13 Honeywell International Inc. Methods and systems for querying for parameter retrieval
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113053382B (zh) * 2021-03-30 2024-06-18 联想(北京)有限公司 处理方法和装置
CN113223516B (zh) * 2021-04-12 2022-11-29 北京百度网讯科技有限公司 语音识别方法和装置
US20220392432A1 (en) * 2021-06-08 2022-12-08 Microsoft Technology Licensing, Llc Error correction in speech recognition
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization
CN115457945B (zh) * 2022-11-10 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268673A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 音声認識装置、音声認識方法、及び音声認識プログラム
JP2003122395A (ja) * 2001-10-19 2003-04-25 Asahi Kasei Corp 音声認識システム、端末およびプログラム、並びに音声認識方法
JP2005107550A (ja) * 2001-09-13 2005-04-21 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム
JP2007516655A (ja) * 2003-06-12 2007-06-21 モトローラ・インコーポレイテッド キャッシュ機能を有する分散音声認識システムおよび方法
JP2008225068A (ja) * 2007-03-13 2008-09-25 Nec Corp 議事録作成方法、その装置及びそのプログラム
US20100268534A1 (en) * 2009-04-17 2010-10-21 Microsoft Corporation Transcription, archiving and threading of voice communications
WO2011040056A1 (ja) * 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US20120022869A1 (en) * 2010-05-26 2012-01-26 Google, Inc. Acoustic model adaptation using geographic information

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665639B2 (en) 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
WO2001020597A1 (en) * 1999-09-15 2001-03-22 Conexant Systems, Inc. Automatic speech recognition to control integrated communication devices
US20020049535A1 (en) * 1999-09-20 2002-04-25 Ralf Rigo Wireless interactive voice-actuated mobile telematics system
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US20020087325A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Dialogue application computer platform
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
CN1409527A (zh) * 2001-09-13 2003-04-09 松下电器产业株式会社 终端器、服务器及语音辨识方法
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
GB2389217A (en) * 2002-05-27 2003-12-03 Canon Kk Speech recognition system
US7218925B2 (en) * 2002-06-06 2007-05-15 General Motors Corporation Method of initiating a telematics service
US7174298B2 (en) * 2002-06-24 2007-02-06 Intel Corporation Method and apparatus to improve accuracy of mobile speech-enabled services
US7003457B2 (en) * 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
JP4209247B2 (ja) * 2003-05-02 2009-01-14 アルパイン株式会社 音声認識装置および方法
US7219063B2 (en) * 2003-11-19 2007-05-15 Atx Technologies, Inc. Wirelessly delivered owner's manual
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
US20050186941A1 (en) * 2004-02-10 2005-08-25 General Motors Corporation Verification of telematic unit in fail to voice situation
US7844246B2 (en) * 2004-05-20 2010-11-30 General Motors Llc Method and system for communications between a telematics call center and a telematics unit
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
US20120253823A1 (en) * 2004-09-10 2012-10-04 Thomas Barton Schalk Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
CN100426377C (zh) * 2005-10-21 2008-10-15 华为技术有限公司 一种实现语音识别功能的方法
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
US8407052B2 (en) * 2006-04-17 2013-03-26 Vovision, Llc Methods and systems for correcting transcribed audio files
US8036896B2 (en) * 2006-04-18 2011-10-11 Nuance Communications, Inc. System, server and method for distributed literacy and language skill instruction
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
WO2008001485A1 (fr) * 2006-06-26 2008-01-03 Nec Corporation système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
KR100810275B1 (ko) * 2006-08-03 2008-03-06 삼성전자주식회사 차량용 음성인식 장치 및 방법
WO2008022156A2 (en) * 2006-08-14 2008-02-21 Neural Id, Llc Pattern recognition system
US20080071534A1 (en) * 2006-09-14 2008-03-20 General Motors Corporation Methods for using an interactive voice recognition system
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US7818176B2 (en) * 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8099288B2 (en) * 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
JP2009017237A (ja) * 2007-07-04 2009-01-22 Sony Computer Entertainment Inc 復号装置および復号方法
US20090018826A1 (en) * 2007-07-13 2009-01-15 Berlin Andrew A Methods, Systems and Devices for Speech Transduction
ATE457511T1 (de) * 2007-10-10 2010-02-15 Harman Becker Automotive Sys Sprechererkennung
US20090204407A1 (en) * 2008-02-08 2009-08-13 Shields T Russell System and method for processing a spoken request from a user
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
JP4609527B2 (ja) * 2008-06-03 2011-01-12 株式会社デンソー 自動車用情報提供システム
KR20110026479A (ko) * 2008-07-07 2011-03-15 스미토모덴키고교가부시키가이샤 기지국 장치
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8224766B2 (en) * 2008-09-30 2012-07-17 Sense Networks, Inc. Comparing spatial-temporal trails in location analytics
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
US8392187B2 (en) * 2009-01-30 2013-03-05 Texas Instruments Incorporated Dynamic pruning for automatic speech recognition
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US20110148857A1 (en) * 2009-12-23 2011-06-23 Microsoft Corporation Finding and sharing of digital images based on shared face models
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8694313B2 (en) * 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8601013B2 (en) * 2010-06-10 2013-12-03 Micron Technology, Inc. Analyzing data using a hierarchical structure
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US8880403B2 (en) * 2010-09-03 2014-11-04 Canyon Ip Holdings Llc Methods and systems for obtaining language models for transcribing communications
US8606581B1 (en) * 2010-12-14 2013-12-10 Nuance Communications, Inc. Multi-pass speech recognition
US9953653B2 (en) 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
EP2678861B1 (en) 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US9159324B2 (en) * 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US20130212340A1 (en) * 2012-02-15 2013-08-15 International Business Machines Corporation Partition aware quality of service feature
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8909526B2 (en) * 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268673A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 音声認識装置、音声認識方法、及び音声認識プログラム
JP2005107550A (ja) * 2001-09-13 2005-04-21 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
JP2003122395A (ja) * 2001-10-19 2003-04-25 Asahi Kasei Corp 音声認識システム、端末およびプログラム、並びに音声認識方法
JP2007516655A (ja) * 2003-06-12 2007-06-21 モトローラ・インコーポレイテッド キャッシュ機能を有する分散音声認識システムおよび方法
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム
JP2008225068A (ja) * 2007-03-13 2008-09-25 Nec Corp 議事録作成方法、その装置及びそのプログラム
US20100268534A1 (en) * 2009-04-17 2010-10-21 Microsoft Corporation Transcription, archiving and threading of voice communications
WO2011040056A1 (ja) * 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US20120022869A1 (en) * 2010-05-26 2012-01-26 Google, Inc. Acoustic model adaptation using geographic information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198132A1 (ja) 2018-04-09 2019-10-17 マクセル株式会社 音声認識デバイス、音声認識デバイスの連携システム、及び音声認識デバイスの連携方法
US11810567B2 (en) 2018-04-09 2023-11-07 Maxell, Ltd. Speech recognition device, speech-recognition-device coordination system, and speech-recognition-device coordination method
JP2022530942A (ja) * 2019-05-06 2022-07-05 グーグル エルエルシー 口頭またはタイプされた発話のオンデバイス分析を可能にするためのクライアントデバイスにおけるアシスタントアクションコンテンツのプロアクティブキャッシング
US11631412B2 (en) 2019-05-06 2023-04-18 Google Llc Proactive caching of assistant action content to enable resolution of spoken or typed utterances
JP7293399B2 (ja) 2019-05-06 2023-06-19 グーグル エルエルシー 口頭またはタイプされた発話のオンデバイス分析を可能にするためのクライアントデバイスにおけるアシスタントアクションコンテンツのプロアクティブキャッシング

Also Published As

Publication number Publication date
WO2014093384A1 (en) 2014-06-19
EP2932501A1 (en) 2015-10-21
US20140163977A1 (en) 2014-06-12
CN105122354A (zh) 2015-12-02
CN105122354B (zh) 2020-06-19
US10152973B2 (en) 2018-12-11
EP2932501B1 (en) 2023-05-17
US20160071519A1 (en) 2016-03-10
JP6096319B2 (ja) 2017-03-15
US9190057B2 (en) 2015-11-17

Similar Documents

Publication Publication Date Title
JP6096319B2 (ja) 分散音声認識システムにおける音声モデル検索
JP6435312B2 (ja) 並列認識タスクを用いた音声認識
US11688402B2 (en) Dialog management with multiple modalities
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US9502032B2 (en) Dynamically biasing language models
JP5172021B2 (ja) 自動音声認識音響モデルの適合
JP2023062147A (ja) 音声認識のためのコンテキストバイアス
US11222637B2 (en) Performing subtask(s) for a predicted action in response to a separate user interaction with an automated assistant prior to performance of the predicted action
EP3935628B1 (en) Proactive caching of assistant action content at a client device to enable on-device resolution of spoken or typed utterances
US11695863B2 (en) Proactive caching of transient assistant action suggestions at a feature phone
US11756538B1 (en) Lower latency speech processing
US10140981B1 (en) Dynamic arc weights in speech recognition models
US10629197B2 (en) Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request
WO2004092967A1 (ja) 対話装置、対話方法及び対話プログラム
CN118235197A (zh) 选择性生成和/或选择性渲染用于所说出话语完成的延续内容
KR20240089626A (ko) 음성 발언 완료를 위한 연속 컨텐츠의 선택적 생성 및/또는 선택적 렌더링

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170215

R150 Certificate of patent or registration of utility model

Ref document number: 6096319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250