JP2014510942A - ハイブリッド型クライアントサーバ音声認識 - Google Patents

ハイブリッド型クライアントサーバ音声認識 Download PDF

Info

Publication number
JP2014510942A
JP2014510942A JP2013554691A JP2013554691A JP2014510942A JP 2014510942 A JP2014510942 A JP 2014510942A JP 2013554691 A JP2013554691 A JP 2013554691A JP 2013554691 A JP2013554691 A JP 2013554691A JP 2014510942 A JP2014510942 A JP 2014510942A
Authority
JP
Japan
Prior art keywords
computing device
speech
segment
receiving
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013554691A
Other languages
English (en)
Other versions
JP2014510942A5 (ja
JP6317111B2 (ja
Inventor
アジャイ・ジュネジャ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speak With Me inc
Original Assignee
Speak With Me inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speak With Me inc filed Critical Speak With Me inc
Publication of JP2014510942A publication Critical patent/JP2014510942A/ja
Publication of JP2014510942A5 publication Critical patent/JP2014510942A5/ja
Application granted granted Critical
Publication of JP6317111B2 publication Critical patent/JP6317111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/63Routing a service request depending on the request content or context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72409User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories
    • H04M1/72412User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality by interfacing with external accessories using two-way short-range wireless interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/14Details of telephonic subscriber devices including a card reading device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

受信コンピューティングデバイスは、音声発話を受信して、音声認識によって処理されて音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化することができる。2つもしくはそれ以上の音声発話セグメントのそれぞれは、複数の利用可能な音声認識器の1つに割り当てられる。複数の利用可能な音声認識器の第1の音声認識器は、データネットワークを介してアクセス可能な別のコンピューティングデバイス上に実装される。第1のセグメントは、第1の認識器によって処理され、処理の結果は受信コンピューティングデバイスに戻される。第2のセグメントは、受信コンピューティングデバイスにおいて実装された第2の認識器によって処理される。

Description

ここで説明された要旨は一般的に音声認識に関し、より特に、いくつかの実施態様において、音声認識機能に関連する処理タスクの識別及び割り当てに関する。
関連出願の相互参照
この出願は、2011年2月22日付け出願の米国仮出願第61/445,433号の優先権の利益を主張し、その開示がその全体において参照によりここに組み込まれる。
一般的に、いくつかの文脈では、自動音声認識、コンピュータ音声認識、音声テキスト変換などとも呼ばれる音声認識は、音声を認識し、話された言葉を1つもしくは複数のコンピューティングシステムに続くべきテキスト、コマンド(命令)もしくは指示に変換する技術に言及する。音声認識アプリケーションは、これらには限定されないが、例えば音声ダイヤリング、コールルーティング、(例えば、照明、電化製品、気候制御、エンターテインメント(娯楽)などの)建物設備もしくは快適機能の制御、(例えば、例えばイントラネットのローカルエリアネットワークもしくは広域ネットワークを介してアクセス可能なデータベースなどのローカルデータベースもしくはネットワーク化されたデータベースのいずれかに対するなどの)データベース検索、データ入力(エントリー)、構造化文書の準備、例えば手紙もしくは電子メールなどの文書の転写もしくは植字のための音声からテキストへの処理、ハンズフリーコンピューティング、車両機能の制御などの音声ユーザインターフェースを含むことができる。
音声認識プロセスは、コンピュータ的にかつ(例えば、メモリ及びデータ送信などが)帯域幅を集約的とすることができる。例えば携帯電話、自動車のカーステレオやナビゲーションシステムなどの組み込み機器(デバイス)のために設計された音声認識器は、一般的には、サーバ上でホストされる音声認識器と同じように豊富な語彙を処理することはできない。また、多くの組み込みデバイスは現在、特に例えば(例えば環境ノイズや音響歪みなどの高レベルの)最適な信号対ノイズ比未満などの音声認識条件の要求や(例えば、音声認識器を支援するために人間が彼のもしくは彼女の音声パターンを変更することなしに音声認識器に話すことを可能とさせるためなどの)連続的な音声条件下での自然な言語の使用のサポートの要求や種々の言語及び方言のサポートの要求などのもとでは、リアルタイム認識で複数の音声認識器を同時に実行するのに必要とする処理能力は持たない。
ここで開示された要旨の一態様では、マシンコードもしくは他のソフトウェアを実行するプログラマブルプロセッサを含む1つもしくはそれ以上のマシンによって実行される方法は、受信コンピューティングデバイスにおいて音声発話を受信して音声認識によって処理されるステップと、音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、2つもしくはそれ以上の音声発話セグメントを複数の利用可能な音声認識器の1つに割り当てるステップとを含む。割り当てるステップは、受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、受信コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第2の音声認識器によって処理するための2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定するステップを含む。第1のセグメントは、受信コンピューティングデバイスから、別の処理を行うコンピューティングデバイスに送信され、第1のセグメント処理結果は、例えばデータネットワークなどを介して別のコンピューティングデバイスから戻されて受信される。第2のセグメントは、受信コンピューティングデバイスにおいて処理されて第2のセグメント処理結果を生成し、第1のセグメント処理結果及び第2のセグメント処理結果を含む完了された音声認識結果は戻される。
本要旨の実施例の選択的な変形例では、1つもしくはそれ以上の付加的な特徴は、含む可能性があるのであってこれらには限定されないのだが、任意の実現可能な組み合わせにおいて含まれる。セグメント化するステップは、受信コンピューティングデバイスにおける1つもしくはそれ以上のプロセッサ上で実装される音響モデルを用いて音声発話を初期分析するステップを選択的に含むことができる。初期分析するステップは、別のコンピューティングデバイスによって受信コンピューティングデバイスよりも効率的に処理される受信された音声発話の特徴を識別することができる。初期分析するステップは、2つもしくはそれ以上の音声発話セグメントの複数のうちの少なくとも1つに対して信頼スコア及びオーディオ品質測定基準を決定するステップを選択的に含むことができる。割り当てるステップは、信頼スコア及びオーディオ品質測定基準の少なくとも1つがそれぞれのしきい値未満であるときに別のコンピューティングデバイス上に実装された第1の音声認識器によって処理するために、第1のセグメントを指定するステップを選択的に含むことができる。それぞれのしきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて選択的に決定される。受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を選択的に含むことができ、別のコンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末からデータネットワークを介してアクセス可能な少なくとも1つのサーバを選択的に含むことができる。割り当てるステップは、第1のセグメントが初期分析するステップによって決定されて別のコンピューティングデバイスにおいて受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、別のコンピューティングデバイス上に実装される第1の音声認識器によって処理するために、第1のセグメントを指定するステップを選択的に含むことができる。第1のセグメント処理結果は、適応された言語モデルを用いて別のコンピューティングデバイスによって実行される第1のセグメントの分析を選択的に含むことができる。適応された言語モデルは、別のコンピューティングデバイスにおいて受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて選択的に適応化される。
このアプローチと一致するシステム及び方法のみならず、(例えばコンピュータなどの)1つもしくはそれ以上のマシンがここで説明された動作をもたらすように動作可能なタンジブルに具現化されたマシン可読媒体を備えた物が説明される。同様に、プロセッサ及び当該プロセッサに接続されたメモリを含んでもよいコンピュータシステムがまた説明される。メモリは、プロセッサにここで説明される1つもしくはそれ以上の動作を実行させる1つもしくはそれ以上のプログラムを含んでもよい。
ここで説明された要旨の1つもしくはそれ以上の変形例の詳細が添付の図面及び以下の説明文において説明される。ここで説明される要旨の他の特徴及び利点は、説明文及び図面並びに特許請求の範囲から明白となろう。
この明細書に組み込まれ、当該明細書の一部を構成する添付の図面は、ここで開示された要旨の特定の態様をその説明とともに示し、開示された実施例と関係する原理のいくつかを説明する助けとなる。
要旨の実施態様と一致する1つもしくはそれ以上の特徴を有する方法の態様を例示するプロセスフロー図である。 要旨の少なくともいくつかの実施態様と一致するシステム特徴を例示する図である。 要旨の少なくともいくつかの実施態様と一致する付加的なシステム特徴を例示する図である。 要旨の少なくともいくつかの実施態様と一致するソフトウェアアーキテクチャーの特徴を例示する図である。
実際には、同様の参照番号は同様の構造、特徴もしくは素子を示す。
現在、音声認識及び対話管理のために利用可能なシステム及びアプローチには、典型的には、指定されかつ固定された辞書、1つの言語、固定された言語モデル、並びに固定された音響モデルを用いた音声認識器が1つの例として利用される。しかしながら、そのようなアプローチは、一般的には、ユーザが現代の音声認識アプリケーションから期待しそうであるすべての特徴を満たすことはできない。例えば、クライアント側音声認識器は、低いレイテンシー時間(待ち時間)及び速い応答時間を実現することができる。サーバベースの音声認識器は、より高い正解率及びより豊富な語彙を提供できるが、必ずしもデータネットワーク利用可能性の課題もしくは信頼性課題によるユーザ要求に応答するように利用できないかもしれない。これらの課題及び潜在な他の課題を現在利用できる解決策を用いて対処するために、要旨の1つもしくはそれ以上の実施例は、他の可能な利点の中では特に、より豊富な語彙のみならず複数の言語における辞書も処理することができ、かつ音声発話を受信するか、さもなければ入力するためのシンクライアントコンピューティング端末における処理能力及び例えば1つもしくはそれ以上のネットワークアクセスを介してシンクライアントコンピューティング端末からアクセス可能な1つもしくはそれ以上のサーバにおける処理能力の両方を利用できる方法、システム、物もしくは製造を提供する。
要旨のいくつかの態様は、シンクライアントコンピューティングデバイスもしくは端末上で発生する処理の第1の部分と、1つもしくはそれ以上の有線の及び無線のデータ送信を含むネットワークを介してシンクライアントコンピューティングデバイスもしくは端末と通信状態にある1つもしくはそれ以上のサーバで発生する処理の第2の部分とを用いて音声認識発話を処理することを含むことができる。複数の音声認識器は、シンクライアントコンピューティングデバイスもしくは端末上または1つもしくはそれ以上のサーバのいずれか、またはそれらの両方に対して選択的に同時に利用される。対話マネージャは、音声認識器によって生成された結果を管理することができ、それらの結果に基づいて、認識され変換された音声として戻されるべき最も可能性がある結果を決定することができる。対話マネージャは、シンクライアントコンピューティングデバイスもしくは端末上または1つもしくはそれ以上のサーバのいずれかに対して実行することができる。シンクライアントコンピューティングデバイスもしくは端末の1つもしくはそれ以上の局所的プロセッサにおいてまたは1つもしくはそれ以上のサーバにおいて処理するために、シンクライアントコンピューティングデバイスもしくは端末に対話マネージャを実装させることによって、または音声発話をセグメント化することとセグメント化された音声発話と関係するタスクを割り当てることとに関連する対話マネージャ機能の少なくともいくつかの態様を実装させることによって、特定の利点が要旨のいくつかの実施例において実現される。
図1は、要旨の実施例と一致する1つもしくはそれ以上の特徴を例示するプロセスフローチャート100を図示する。102では、対話マネージャは、例えば、他の場所で説明されたシンクライアントコンピューティングデバイスもしくは端末で受信された可聴入力を介して、音声発話を受信する。ここで使用されるように、「対話マネージャ」という用語は、一般的には、話された発話の受信を識別してその受信された発話に対して1つもしくはそれ以上の動作を実行することができる1つもしくはそれ以上のハードウェア及びソフトウェアによって提供される機能に言及する。
104で、対話マネージャは、音声発話を(例えば複数の)2つもしくはそれ以上の音声発話セグメントにセグメント化し、106で、音声発話のそれぞれのセグメントを複数の音声認識器の1つに割り当てる。セグメント化すること及び割り当てることのそれぞれは、他の箇所でより詳細に説明される1つもしくはそれ以上の定義された基準に従って実行される。複数の音声認識器のそれぞれは、例えば1つもしくはそれ以上の特定のタスクもしくはタスクのカテゴリーに対して個々に構成される。代替例として、複数の音声認識器のうちの1つもしくはそれ以上は、シンクライアントコンピューティングデバイスもしくは端末または1つもしくはそれ以上のサーバシステムのいずれかで実行されて受信された音声発話に対して特定の音声認識タスクを処理するように実行時間で設定される1つもしくはそれ以上の動的に設定可能な音声認識器のプールの一部とできる。各音声認識器インスタンスは、特定の言語に選択的に割り当てられ、詳細後述するようにそれ自身固有の言語モデル、文法モデル、及び音響モデルを有することができる。
110では、処理結果は、複数のセグメントを処理する音声認識器から、例えば対話マネージャもしくは他の匹敵する機能などで受信され、112において、音声認識結果は戻される。戻された音声認識結果は、シンクライアントコンピューティングデバイスもしくは端末または1つもしくはそれ以上のサーバのうちの1つまたはそれら両方によって更なる処理タスクを選択的に発生することができるし、もしくはトリガーすることができる。
図2は、要旨の1つもしくはそれ以上の特徴と一致するシステムアーキテクチャー200の例を図示する。シンクライアントコンピューティングデバイスもしくは端末202は、1つもしくはそれ以上の有線の及び無線の通信能力を含むことができるネットワーク206を介して1つもしくはそれ以上のサーバシステム204にアクセスすることができる。いくつかの実施例では、1つもしくはそれ以上のサーバシステム204は、1つもしくはそれ以上のサーバシステム204にわたって処理負荷を分散することができるバックエンドインターフェース210を介してアクセスされる。代替例として、複数のクラウドサーバ204のそれぞれは、それ自身のバックエンドインターフェースを介してネットワークによって直接的にアクセスできる。サーバシステム204は、例えば、1つもしくはすべてのサーバシステム204から、または図2に図示するようにバックエンドインターフェース210を介して直接的にアクセスできる1つもしくは複数のデータベースなどのオンラインデータ記憶装置212にアクセスできる。1つもしくはそれ以上のサーバシステム204、バックエンドインターフェース210及びオンラインデータ記憶装置212のいずれかまたはすべては、クラウドコンピューティング配置のすべてもしくは一部を含むことができる。例えば、物理的に及び/または仮想的なマシンを含むことができる動的に拡張可能なリソースは、(例えばローカルイントラネット、インターネットなどの)ネットワークを介してアクセスされて処理タスクの分散型処理を可能とすることができる。複数のシンクライアントコンピューティングデバイスもしくは端末202は、1つもしくはそれ以上のサーバ204のネットワークアクセスされたコンピューティング能力にパラレルでアクセスすることができる。
他の箇所で記載されたように、シンクライアントコンピューティングデバイスもしくは端末202は、ネットワークアクセスを有する携帯デバイス(機器)もしくは他のコンピューティングデバイスを含むことができる。そのようなデバイスは、携帯電話に限定されないが、「スマート」フォン、パーソナルデータアシスタント、タブレットコンピューティングデバイス、電子書籍リーダ、ナビゲーションアシスタント、音声認識特徴を有するユーザインターフェースを実行する自動車もしくは他の車両におけるプロセッサ、デスクトップパーソナルコンピュータもしくはラップトップコンピュータ、音声認識特徴を有するユーザインターフェースを実行する家庭のもしくはオフィスの制御システム、またはユーザが音声コマンドを用いて情報のやりとりをすることができる任意の他の匹敵するデバイスもしくはシステムを含むことができる。少なくとも1つのプログラム可能なプロセッサを含むことができるそのようなデバイスは、その少なくとも1つのプログラム可能なプロセッサ上に局所的に実装されたユーザ音響モデルを実装することができる。この局所的に実装されたユーザ音響モデルは、音声認識結果に対するユーザフィードバックを受信することによって、時間にわたってトレーニングされる能力を含むことができる。例えば、ユーザは、ユーザインターフェースと相互作用する(例えば、キーボード、マウス、タッチスクリーン、トラックパッド、音声コマンドなどの)ユーザインターフェースまたは1つもしくはそれ以上の入力デバイスを介して、音声認識結果をレビューして修正して「正確な」もしくは「訂正された」音声認識結果を示す機会が与えられる。そのような入力は、シンクライアントコンピューティングデバイスもしくは端末202または1つもしくはそれ以上のサーバ204の1つまたはそれら両方に対して実装された音声認識特徴によって提供された初期認識結果をより改良させるように局所的に実装されたユーザ音響モデルに対するフィードバックをトレーニングする役目を果たすことができる。
図3は、要旨の少なくとも1つの実施例と一致する1つもしくはそれ以上の特徴を例示するもう1つのコンピューティングアーキテクチャー図を図示する。いくつかの実施例では、シンクライアントコンピューティングデバイスもしくは端末202は、音声認識機能を提供する1つもしくはそれ以上のクライアント側モジュール304を実行し、シンクライアントコンピューティングデバイスもしくは端末202において受信された音声発話の認識に関連するデータコンテンツを格納する1つもしくはそれ以上のローカルデータベース306にアクセスする1つもしくはそれ以上のプログラム可能なプロセッサ302を含むことができる。有利に、少なくとも1つのクライアント側モジュール304は、文脈自由文法(CFG)に基づくローカル音声認識器を含む。付加的なクライアント側モジュール304は、これらには限定されないが、ユーザ音響モデル、クライアントサーバ対話マネージャ、適応された言語モデル(LM)などを含むことができる。局所的なデータベースには、例えば位置情報サービス(LBS)データ用にキャッシュされた文法、電子メール及びデバイスの1人もしくは複数のユーザによって送信及び/または受信された(例えばSMSメッセージなどの)他のテキストベースのメッセージのすべてもしくはサブセット、コンタクトリスト及び/または他のアドレスブックデータ、(例えばアポイントメント、タスクリストなどの)少なくとも一部の1人(もしくは複数の)ユーザのカレンダーデータ、(例えば音楽、ビデオ、写真などの)媒体コンテンツ、(例えば現在の及び過去などの)時間及び位置データ、(例えばソーシャルメディアサービスプロバイダーに対するフレンドリストなどの)デバイスの1人もしくは複数のユーザの社会的関係に関するデータ、(例えばソーシャルメディアのフレンドプロキシミティマップなどの)社会的関係に関するプロキシミティデータなどを選択的に含むことができる。一般的には、音声認識に関連する文法としての用語「文法」は、音声認識器の認識能力範囲内である単語シーケンスに対する制約タイプを示す。文法は、例えば特定の音声認識タスクによって定義もしくはパラメータ化されるように、語彙規則及び構文規則だけでなく意味制約及び語用論的制約もカバーすることができる。
また、図3の符号300の図において図示されるように、1つもしくはそれ以上のサーバ204のそれぞれは、全体の音声認識機能の1つもしくはそれ以上の態様をサポートする1つもしくはそれ以上のサーバ側モジュール310を実行するプログラム可能なプロセッサ302を含むことができる。例えば、サーバ側モジュール310は、これらには限定されないが、サーバ204に同期する音響モデル、統計的言語モデルに基づく音声認識器モジュール、サーバ側対話マネージャモジュール、時間的もしくは位置的のいずれかの制約があるまたは時間的及び位置的制約のある適応された言語モデル、パラレルで使用される適応された言語モデル及び統計的言語モデル(SLM)、1つもしくはそれ以上のユーザ電子メールから構築された適応された言語モデル、ユーザに対する位置ベースのサービスデータ、対象のポイントデータ、ソーシャルメディアフィード、カレンダーアポイントメント、クラウドメディアコンテンツ、クラウド格納された文書などを含むことができる。ユーザ特定のデータが、考えられるすべての利用可能なデータを用いてフィルタリングされないで使用されるか、または1つもしくはそれ以上のアルゴリズムが、例えば年齢や1つもしくはそれ以上の予め定義されたもしくは派生された基準に従って決定される関連性によってそのようなデータをフィルタリングするなどのために適応された言語モデルの一部として適用される。ユーザ音響モデルは、利用可能なデータに基づいて時間にわたってトレーニングされる。いくつかの例では、適応された言語モデルは、時間的制約及び位置的制約の両方を設けることができる。
音声認識プロセスと関連するタスクの一部は、(例えば、磁気、光学もしくは固体の記憶装置などに、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)などに、加入者識別モジュール(SIM)カード上などに、セキュアデジタル(SD)カードやセキュアなデジタル拡張された容量カードなどの着脱可能な記憶装置上に、または内部に集積化された、直接的にもしくは内部に取り付け可能な他の磁気、光学もしくは固体などのデバイスなどに)保持されるか、もしくは格納される。さもなければ、音声認識プロセスと関連するタスクの一部は、シンクライアントコンピューティングデバイスもしくは端末202から(例えば、例えばWiFiやブルートゥースアクセスや赤外線通信などのローカルエリアネットワークなどの)高速のネットワークアクセスを介してアクセス可能であるデータを含むことができる。そのようなデータは、これらには限定されないが、コンタクト、カレンダーアイテム、ビデオゲーム、局所的に格納された電子メールメッセージなどを含むことができる。いくつかの実施例では、そのようなデータに関連する音声認識タスクは、シンクライアントコンピューティングデバイスもしくは端末202において最も効率的に処理される。
いくつかの実施例では、よりコンピュータ集約的であるかまたは1つ以上のサーバもしくは他のクラウドコンピューティングシステムにより容易にアクセス可能であるタスクの一部は、サーバ側で処理される。そのようなタスクは、これらには限定されないが、電子メールもしくはテキストメッセージの本文のディクテーション、(例えばクラウドにおけるなどの)オンラインで格納された音楽もしくはビデオコレクションにアクセスすること、ユーザに対して音響プロファイルを決定することを含むタスク、異なる言語で一度に複数の音声認識器を使用することを含むタスクなどを含むことができる。いくつかの実施例では、異なる言語で一度に複数の音声認識器を使用することを含むタスクは、例えばシンクライアントコンピューティングデバイスの処理能力や利用可能なネットワークアクセスの品質やネットワーク帯域制限などによって、サーバ側もしくはシンクライアントコンピューティング側のいずれかまたはそれらの両方で処理される。
音声認識器もしくは要旨と一致する他の音声認識機能を呼び出すアプリケーションの性質によって、対話スクリプト設計者、開発者もしくは開発チームは、例えば(例えば実行時間より前などの)設計時間の間などで、受信された発話内のどのポイントで(例えば携帯デバイスなどの)シンクライアントでの音声認識と関連付けされたタスクの処理と1つもしくは複数のサーバとの間の切り替えが行われるべきかを決定することができるか、さもなければ定義することができる。1つもしくはそれ以上のアルゴリズム、評価または1つ以上の実行時間パラメータもしくは他の変数、決定ポイントなどが、アプリケーションの実行時間バージョン内または受信された音声を(例えばフレーズ、セクションなどの)2つもしくはそれ以上の部分に構成要素を分析してシンクライアントコンピューティングデバイスもしくはネットワークを介してアクセスされた1つもしくはそれ以上のサーバのいずれかまたはそれら両方で処理するためにこれらの部分を割り当てるために音声認識器もしくは他の音声認識機能を実装するソフトウェアもしくはハードウェア内に含まれる。
また、要旨の1つもしくはそれ以上の実施例内において、単一の音声発話内で文章の半分でもしくは他の箇所で言語間を切り替えるための能力、並びに/またはパラレルで同一言語において複数の音声認識器を使用して正解率を上げ、及び/もしくは音声発話を創造した話し手に対して適切な音響プロファイル及び基本周波数を決定するための能力が可能となる。そのようなアプローチを使用すれば、(例えば音声認識機能のユーザなどの)各話し手に対するプロファイルを学習して最適化することが改良される。言語間の切り替えポイント、音声発話の分割、複数の音声認識器のパラレルでの使用などを定義する方法に関する決定は、(例えば対話マネージャ内に予めプログラミングされるなどの)設計時間において行われる。代替例として、対話マネージャは、実行時間において実行されて音声発話がセグメント化されるべき方法を決定する、例えばロジック、ファジーロジック、人工知能などの1つもしくはそれ以上のルーティンまたはアルゴリズムを用いてプログラミングされる。対話マネージャは、そのモデリング言語内で、戻された結果に基づいて決定することができ、その決定は手元でのタスク及びアプリケーションに対して特定とすることができる。
要旨の実施例と一致するいくつかの特徴の例示的な例において、音声発話として受信されたサンプル文章を、“Send a text message to Mike Smith and tell him to wash the dishes.(テキストメッセージをマイク・スミスに送り、彼に皿を洗うことを告げる。)”とできる。この文章は、シンクライアントコンピューティング端末での第1の音声認識器によって処理されるべき第1のセグメントと、1つもしくはそれ以上のサーバにおける第2の音声認識器によって処理されるべき第2のセグメントとに分割される。第1のセグメントは、SMSメッセージ及び意図された受信者の名前を送信するためのコマンドを含む発話の第1の部分を含むことができる。第2のセグメントは、テキストメッセージ内に含まれるべき付加的な情報を含むことができる。例えば、シンクライアントコンピューティング端末での音声認識器Aは、<sendSMS>及び<person name>の認識タスクが割り当てられる一方で、1つもしくはそれ以上のサーバでの音声認識器Bは、<SLM:dictation>の認識タスクが割り当てられる。これらの認識タスクは、以下のように定義される。すなわち、<sendSMS>は、テキストメッセージを送信するためのコマンドを示す例えば“Send a text message to”、“Send a message to”、“Send an SMS to”などの1つもしくはそれ以上の動詞の発話セグメントを識別することができる。<person name>認識タスクは、1つの例では、シンクライアントコンピューティングデバイス上の辞書もしくはコンタクトリスト内に格納されるコンタクトを検索(サーチ)することができる。
ある例では、サンプルフレーズの第1の部分は、デバイス上で文脈自由文法(CFG)としてモデル化され、文章の第2の部分は、1つもしくはそれ以上のサーバにおいてもしくは「クラウド内において」ホストされた統計的言語モデル(SLM)ベースの認識器を使用することができる。文脈自由文法は、自然な言語におけるフレーズがより小さなブロックから構築されるための方法を説明するための、シンプルでかつ数学的に正確なメカニズムを提供することができる。このアプローチは、自然な方法で文章の「ブロック構造」を捕捉することを可能とできる。また、このアプローチは、単語の強さが文法から発生されたかどうか及び単語の強さが文法からどのように発生されたかを所定の単語の文字列に対して決定することができる効率的な文解析アルゴリズムをサポートできる。一般的に、SLMは、自然言語の分布を評価するときに用いるための一連の単語例に対してある確率を割り当てる。例えば、SLMは、文字列Sが文章としてどれくらい発生するかを反映しようとする文字列Sに対する確率分布P(S)を含むことができる。そのようなモデルは典型的に、言語の特性を捕捉しようとし、音声発話における目標とする単語に先行する1つもしくはそれ以上の単語に基づいて、音声シーケンスにおいて次の単語を予測しようとする。
上述されたようなスクリプトフォーマットに続き、発話された対話の部分の任意の組み合わせは、クライアント上の文脈自由文法、1つもしくはそれ以上のサーバでのまたはクラウド上の文脈自由文法、クライアント上の統計的言語モデリング、及び1つもしくはそれ以上のサーバでのまたはクラウド上の統計的言語モデリング間、すなわち同一の音声発話内のすべての間で自由に混合することができるオブジェクト指向のフラグメントとして指定される。この設計は、開発の柔軟性のためにユーザインターフェースの話された言語部分から可能な限りのスピード及び精度を得ることを可能とする。また、(例えばクラウドにおけるなどの)1つもしくはそれ以上のサーバでの音声認識はコンピュータ的に費用がかかるはずなので、ここで説明されたアプローチのインテリジェントな(知的な)使用は、いくつかの実施例では、データ帯域幅使用量の70%もしくはそれ以上の節約を可能とする一方で、ユーザに対してより速い往復応答時間を保証することができる。
要旨の実施例と一致するアプローチを利用する音声発話応答タイプのもう1つの例は、1つもしくはそれ以上のサーバまたはクラウドからシンクライアントコンピューティングデバイスへのネットワークを介してストリーミングされるように利用可能なオーディオ、ビデオなどに対応する歌、アーティスト、プレイリストなどやフィードのサーバ側認識を用いた“play”コマンドのシンクライアントコンピューティングデバイスもしくは端末202における認識を含むことができる。例えば、このシナリオにおける動作は、<client:recognizer A><play></client:recognizer A><cloud:recognizer B><musicstreamingfromcloud></cloud:recognizer B>と要約できる。ここで、<play>は、例えば“Play”、“Play for me”、“could you please play”などの動詞の文字列として定義される。
サーバ側のデータは、これらには限定されないが、電子メール、テキストメッセージ、カレンダー入力、“to-do”もしくは他のタスクリスト入力、(例えばフェースブック(登録商標)、ツイッター(登録商標)、グーグルプラス(登録商標)、リンクトイン(登録商標)などからのフィードを含む)ソーシャルメディアフィード、音楽コレクションもしくはストリーミング音楽またはクラウドもしくは他のオンラインソースから利用可能な他のメディアソースなどを含むことができる。適応された言語モデルを提供するサーバ側モジュールは、1つもしくはそれ以上のそのようなデータソースのみならず他のデータソースを使用して適応された言語モデルを構築して改良することができる。
最近のデータは、ネットワークアクセスの必要性なしにより広範囲の音声認識特徴をサポートするデータ転送プロセスにおいて、(例えば周期的なプル、更新プロセスなどを介して、)シンクライアントコンピューティングデバイスもしくは端末202へプッシュされるか、さもなければ転送される。1つの例では、そのようなデータ転送プロセスは、他のネットワークアクティビティが低いバックグラウンドにおいて実行される。ユーザはそのような転送がいつ発生すべきかを決定するための設定を選択的に調整することができる。例えば、ユーザは、制限されたセルラーデータサービスプランを用いて、彼のもしくは彼女の電話もしくは他のシンクライアントコンピューティングデバイスもしくは端末202が、例えば(例えば802.11_プロトコルに基づいたネットワークなどを介した)WiFiアクセスもしくは有線アクセスによるなどの非セルラーネットワークにアクセスされるときだけにそのようなデータ転送が実行されるように選択されてもよい。選択的にまた、文法が、1つもしくはそれ以上のサーバ204上でとシンクライアントコンピューティングデバイスもしくは端末202での両方で利用可能なデータを用いて動的に構築される。
図4の構成要素400の図において例示されるように、開発者によって準備された対話スクリプト402は、対話マネージャ404のために、1つのもしくは複数のセットのタスク及び語彙を定義する。対話マネージャ404は、複数の異なる音声認識器406に同時にアクセスされる。留意すべきことは、3つの音声認識器406が図4で図示される一方で、要旨の範囲内で任意の数の音声認識器が可能である、ということである。ここで説明された音声認識器406は、音響モデル410、言語モデル412及び文法モデル414を含むことができる。
要旨の1つもしくはそれ以上の実施例と一致する音声認識システムによって経験されそうである音声認識要求の性質を理解するかもしくは予測する設計時間に基づいて、対話スクリプト402は、検出された動詞の発話のそれぞれの特定の部分を処理するためにどの音声認識器406を使用するかを決定するときに支援する1つもしくはそれ以上のアルゴリズムまたは基準を含むことができる。対話マネージャ404及び対話スクリプト402は、種々の実施例では、(例えばクラウド内などの、)1つもしくはそれ以上のサーバ204上に、シンクライアントコンピューティング端末202上に、またはシンクライアントコンピューティングデバイスもしくは端末202及び1つもしくはそれ以上のサーバ204の両方の少なくとも部分的に存在することができる。
種々の実施例では、1つもしくはそれ以上の音声認識器406は、同一言語内もしくは異なる言語内で存在することができる。音声認識器406は、単一のデバイス上でもしくは複数の異なるデバイス上で存在することができる。1つもしくはそれ以上の音声認識器406は、固有の音響モデル410を含むことができる。代替例として、1つもしくはそれ以上の音声認識器406は、同一の音響モデル410を含むことができる。同様に、1つもしくはそれ以上の音声認識器406は、固有の言語モデル412を含むことができる。代替例として、1つもしくはそれ以上の音声認識器406は、同一の言語モデル412を含むことができる。またさらに、1つもしくはそれ以上の音声認識器406は、固有の文法モデル414を含むことができる。代替例として、1つもしくはそれ以上の音声認識器306は、同一の文法モデル414を含むことができる。また、1つもしくはそれ以上の音声認識器306は、固有の辞書を含むことができる。代替例として、1つもしくはそれ以上の音声認識器306は、同一の辞書を含むことができる。
使用された音声認識器の数は、クライアント要求及びデバイス負荷に基づいて動的に決定される。システムの状態は、シンクライアントコンピューティングデバイスもしくは端末202から1つもしくはそれ以上のサーバ204へ転送され、及び/または1つもしくはそれ以上のサーバからシンクライアントコンピューティング端末202へと戻される。いくつかの例では、(例えば、電子メール及びテキストメッセージのコンテンツ、受信者並びに送信者、シンクライアントコンピューティングデバイスもしくは端末202に対する時間及び位置データ、カレンダーコンテンツ、メディアコンテンツ、ソーシャルメディアコンテンツ、並びに別の箇所で説明されたデータを含む他の同様のデータなどの)局所的に利用可能なデータの使用を含むことができるシンクライアントコンピューティングデバイスもしくは端末202の音響モデルが動的に適応化される。1つもしくはそれ以上のサーバ204で使用された適応された言語モデルはまた、記憶装置202内においてすぐに利用可能であるか、さもなければ1つもしくはそれ以上のサーバ204へアクセス可能であるデータを利用することができる。
シンクライアントコンピューティングデバイスもしくは端末202と、1つもしくはそれ以上のサーバ204との間の音声認識処理タスクの分割は、上述した1つもしくはそれ以上のファクタに基づいて決定される。いくつかの例では、設計時間アルゴリズムもしくは実行時間パラメータ評価の定義は、クライアントとサーバとの間でタスクを分割するときに支援するために提供される。1つの例では、信頼スコア及び信号対ノイズ比は、受信された音声発話の1つもしくはそれ以上のセグメントのそれぞれに対して割り当てられる。信号対ノイズ比は、指示子とすることができるし、さもなければ受信された音声発話のオーディオ信号の品質を示す測定基準として使用される。シンクライアントコンピューティングデバイスもしくは端末202で受信された音声発話を処理する音響モデルを用いて実行される初期分析は、いくつかの例では、信頼スコアを提供することができる。1つもしくはそれ以上のしきい値は、信頼スコアと信号対ノイズ比もしくは他のオーディオ品質測定基準との両方に対して事前に定義される。それらのそれぞれのしきい値を超える信頼スコア及びオーディオ品質測定基準を有する受信された音声発話のセグメントに対して、セグメントがシンクライアントコンピューティングデバイスもしくは端末202において処理するために割り当てられる。一方、(例えば事前に定義された信頼スコアしきい値未満などの)低い信頼スコアを有するセグメントは、信号対ノイズ比にかかわらず、1つもしくはそれ以上のサーバ204において処理するために選択的に割り当てられる。
信頼レベルとオーディオ品質測定基準との両方に対するしきい値設定は、音声発話が発生するか、もしくは受信される予想されたもしくは実際の環境のみならず音声発話を受信するように使用された機器もしくはデバイスのタイプに基づいて、選択的に決定される。例えば、例えば自動車、公共の開催地などの非常に大きな背景雑音もしくは周囲雑音を有する環境は、例えば家、事務所などのより低いと予想された背景雑音を有するより静かな環境とは異なったしきい値が割り当てられる。シンクライアントコンピューティングデバイスもしくは端末202または他の音声発話受信デバイスは、雑音消去デバイスや多数の携帯電話などの存在に基づいて分類され、高いもしくは低い信頼スコア及び/または音響品質測定基準を決定するためのしきい値がそれに従って調整される。同様に、音声認識機能によって受信されかつ処理されるように期待された動詞タイプの入力が、適応される言語モデルで使用するために必要なデータの利用可能性、ネットワークアクセス及び帯域幅の利用可能性及びコストなどである、適切なしきい値を決定するときに使用される。いくつかの例では、(例えばおよそ40dBなどの)最小しきい値未満の信号対ノイズ比を有する音声発話セグメントは、実用的に粗悪な品質を有するとして識別される一方で、(例えばおよそ60dBなどの)次のしきい値未満であるが最小しきい値よりも大きな信号対ノイズ比を有する第2の音声発話は、より大きな処理能力が利用可能である1つもしくはそれ以上のサーバ204で処理することを必要とする低い品質を有するとして識別される。(例えばおよそ60dBなどの)次のしきい値よりも大きな信号対ノイズ比を有する第3の音声発話セグメントは、必要とされる処理能力がより低くなるように期待されるので、シンクライアントコンピューティングデバイスもしくは端末202において処理することを可能とする高い品質を持つとして識別される。
ここで説明された要旨の1つもしくはそれ以上の態様または特徴は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)コンピュータハードウェア、ファームウェア、ソフトウェア、並びに/またはそれらの組み合わせにおいて実現される。これらの種々の態様または特徴は、特別のもしくは一般的な目的とすることができ、記憶装置システム、少なくとも1つの入力デバイス及び少なくとも1つの出力デバイスからのデータ及びコマンドを受信してデータ及びコマンドを記憶装置システム、少なくとも1つの入力デバイス及び少なくとも1つの出力デバイスに送信するように接続された少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能な及び/または解釈可能な1つもしくはそれ以上のコンピュータプログラムにおける実装を含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、構成要素、またはコードともまた呼ばれるこれらのコンピュータプログラムは、プログラマブルプロセッサに対するマシンコマンドを含み、これらのコンピュータプログラムは、ハイレベルの手続き型プログラミング言語及び/もしくはオブジェクト指向型プログラミング言語において、並びに/またはアセンブリ/マシン言語において実装される。ここで使用されるように、「マシン可読媒体」という用語は、マシンコマンド及び/またはデータをマシン可読信号としてマシンコマンドを受信するマシン可読媒体を含むプログラマブルプロセッサに提供するために使用された、例えば磁気ディスク、光学ディスク、メモリ及びプログラマブルロジックデバイス(PLD)などの任意のコンピュータプログラム製品、装置及び/またはデバイスに言及する。「マシン可読信号」という用語は、マシンコマンド及び/またはデータをプログラマブルプロセッサに提供するように使用された任意の信号に言及する。マシン可読媒体は、例えば非一時的な固体メモリもしくは磁気ハードディスクまたは任意の同等の記憶媒体などに格納するであろうように非一時的にそのようなマシンコマンドを格納することができる。代替にもしくは付加的に、マシン可読媒体は、例えば1つもしくはそれ以上の物理的なプロセッサコアと関連するプロセッサキャッシュまたは他のランダムアクセスメモリなどに格納するような一時的な方法で、そのようなマシンコマンドを格納することができる。
ユーザとの相互作用を提供するために、ここで説明された要旨の1つもしくはそれ以上の態様もしくは特徴は、例えばユーザに情報を表示するためのブラウン管(CRT)もしくは液晶ディスプレイ(LCD)もしくは発光ダイオード(LED)モニターなどの表示デバイス並びにキーボード及びコンピュータに入力するために提供されてもよい例えばマウスもしくはトラックボールなどのポインティングデバイスを有するコンピュータ上に実装される。ユーザとの相互作用を提供するために他の種類のデバイスがまた使用される。例えば、ユーザに提供されるフィードバックは、例えば視覚フィードバック、聴覚フィードバックもしくは触覚フィードバックなどの任意の形態の感覚フィードバックとすることができるし、ユーザからの入力は、これらには限定されないが、音響、音声もしくは触覚入力を含む任意の形態で受信されてもよい。他の可能性がある入力デバイスは、これらには限定されないが、タッチスクリーンまたは例えばシングルポイントもしくはマルチポイントの抵抗もしくは容量性のトラックパッドなどの他のタッチ感知力を有するデバイス、音声認識ハードウェア及びソフトウェア、光学スキャナ、光学ポインタ、デジタル画像捕捉デバイス及び関連する解釈ソフトウェアなどを含む。アナライザから遠隔にあるコンピュータは、有線もしくは無線ネットワークを介してアナライザにアクセスされ、(例えば、遠隔にあるコンピュータにおいてアナライザからデータを受信して例えば校正データなどの情報を送信することやパラメータまたはソフトウェアのアップグレードもしくは更新を操作することなどの、)アナライザと遠隔のコンピュータとの間のデータ交換のみならずアナライザの遠隔制御や遠隔診断を可能にする。
ここで説明された要旨は、システム、装置、方法及び/または所望の構成に基づく物において具現化される。上述された実施例は、ここで説明された要旨と一致するすべての実施例を示さない。代わりに、それらは、説明された要旨を関連する態様と一致する単なるいくつかの例である。2,3の変形例が詳細上述されたのだが、他の修正もしくは追加が可能である。特に、更なる特徴及び/または変形がここで説明された特徴及び/または変形に加えて提供される。例えば、上述された実施例は、開示された特徴の種々のコンビネーション及びサブコンビネーション、並びに/または上述されたいくつかの更なる特徴のコンビネーション及びサブコンビネーションへと導かれる。また、添付された図面で図示された及び/またはここで説明されたロジックフローは、所望の結果を得るためには、必ずしも図示された特定の順番または連続的な順番である必要はない。他の実施例が以下の特許請求の範囲の範囲内で存在してもよい。

Claims (20)

  1. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
    上記動作は、
    受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
    上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含み、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記動作は、
    上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
    上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
    上記動作は、
    上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含むコンピュータプログラム製品。
  2. 上記セグメント化するステップは、
    上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
    上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項1記載のコンピュータプログラム製品。
  3. 上記初期分析するステップは、
    上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項2記載のコンピュータプログラム製品。
  4. 上記割り当てるステップは、
    上記信頼スコア及び上記オーディオ品質測定基準の少なくとも1つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項3記載のコンピュータプログラム製品。
  5. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項1から4のうちのいずれか1つに記載のコンピュータプログラム製品。
  6. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含む請求項1から5のうちのいずれか1つに記載のコンピュータプログラム製品。
  7. 上記第1のセグメント処理結果は、適応される言語モデルを用いて上記別のコンピューティングデバイスによって実行される上記第1のセグメントの分析を含み、
    上記適応される言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項6記載のコンピュータプログラム製品。
  8. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングデバイスと、コンピューティングシステムによって実行されるときに、上記コンピューティングシステムの上記少なくとも1つのプログラマブルプロセッサに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体とを備えた受信コンピューティングデバイスであって、
    上記動作は、
    受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
    上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップを含み、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記動作は、
    上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップとを含み、
    上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
    上記動作は、
    上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む受信コンピューティングデバイス。
  9. 上記セグメント化するステップは、
    上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
    上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項8記載の受信コンピューティングデバイス。
  10. 上記初期分析するステップは、
    上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項9記載の受信コンピューティングデバイス。
  11. 上記割り当てるステップは、
    上記信頼スコア及び上記オーディオ品質測定基準の少なくとも1つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項10記載の受信コンピューティングデバイス。
  12. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項8から11のうちのいずれか1つに記載の受信コンピューティングデバイス。
  13. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含む請求項8から12のうちのいずれか1つに記載の受信コンピューティングデバイス。
  14. 上記第1のセグメント処理結果は、適応される言語モデルを用いて上記別のコンピューティングデバイスによって実行される上記第1のセグメントの分析を含み、
    上記適応される言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項13記載の受信コンピューティングデバイス。
  15. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムを備えた受信コンピューティングデバイスにおいて、音声発話を受信して、音声認識によって処理されるステップと、
    上記コンピューティングシステムによって、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記コンピューティングシステムによって、上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含む方法であって、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記方法は、
    上記コンピューティングシステムによって、上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    上記コンピューティングシステムによって、第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
    上記送信するステップと上記受信するステップとは、データネットワークを介して行われ、
    上記方法は、
    上記コンピューティングシステムによって、上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    上記コンピューティングシステムによって、完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む方法。
  16. 上記セグメント化するステップは、
    上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いて、上記音声発話を初期分析することを含み、
    上記初期分析するステップは、上記別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別する請求項15記載の方法。
  17. 上記初期分析するステップは、
    上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項16記載の方法。
  18. 上記割り当てるステップは、
    上記信頼スコア及び上記オーディオ品質測定基準の少なくとも1つが各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項17記載の方法。
  19. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項15から18のうちのいずれか1つに記載の方法。
  20. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するための上記第1のセグメントを指定することを含む請求項15から19のうちのいずれか1つに記載の方法。
JP2013554691A 2011-02-22 2012-02-22 ハイブリッド型クライアントサーバ音声認識 Active JP6317111B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161445433P 2011-02-22 2011-02-22
US61/445,433 2011-02-22
PCT/US2012/026185 WO2012116110A1 (en) 2011-02-22 2012-02-22 Hybridized client-server speech recognition

Publications (3)

Publication Number Publication Date
JP2014510942A true JP2014510942A (ja) 2014-05-01
JP2014510942A5 JP2014510942A5 (ja) 2015-04-16
JP6317111B2 JP6317111B2 (ja) 2018-04-25

Family

ID=45952632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013554691A Active JP6317111B2 (ja) 2011-02-22 2012-02-22 ハイブリッド型クライアントサーバ音声認識

Country Status (4)

Country Link
US (2) US9674328B2 (ja)
EP (1) EP2678861B1 (ja)
JP (1) JP6317111B2 (ja)
WO (1) WO2012116110A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013180197A1 (ja) * 2012-05-30 2016-01-21 Meiji Seikaファルマ株式会社 新規β−ラクタマーゼ阻害剤とその製造法
WO2019231055A1 (en) * 2018-05-31 2019-12-05 Hewlett-Packard Development Company, L.P. Converting voice command into text code blocks that support printing services
KR20200127814A (ko) * 2019-05-02 2020-11-11 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
JP2021505923A (ja) * 2018-02-12 2021-02-18 ラックスロボ カンパニー,リミティド 音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
US11721343B2 (en) 2019-05-02 2023-08-08 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
WO2012116110A1 (en) * 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
US10354650B2 (en) 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9583100B2 (en) * 2012-09-05 2017-02-28 GM Global Technology Operations LLC Centralized speech logger analysis
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
KR101284594B1 (ko) * 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
US9591347B2 (en) 2012-10-31 2017-03-07 Google Inc. Displaying simulated media content item enhancements on mobile devices
US9875741B2 (en) 2013-03-15 2018-01-23 Google Llc Selective speech recognition for chat and digital personal assistant systems
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
US9542947B2 (en) 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US20140337751A1 (en) * 2013-05-13 2014-11-13 Microsoft Corporation Automatic creation of calendar items
US9892733B2 (en) * 2013-05-20 2018-02-13 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US9818401B2 (en) 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
EP3005152B1 (en) * 2013-05-30 2024-03-27 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US20140379346A1 (en) * 2013-06-21 2014-12-25 Google Inc. Video analysis based language model adaptation
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US20140342772A1 (en) * 2013-09-12 2014-11-20 Bandwidth.Com, Inc. Predictive Caching of IP Data
US8825881B2 (en) * 2013-09-12 2014-09-02 Bandwidth.Com, Inc. Predictive caching of IP data
EP2851896A1 (en) 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US10115394B2 (en) * 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP6618992B2 (ja) * 2015-04-10 2019-12-11 株式会社東芝 発言提示装置、発言提示方法およびプログラム
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9886423B2 (en) * 2015-06-19 2018-02-06 International Business Machines Corporation Reconciliation of transcripts
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US10282666B1 (en) 2015-11-10 2019-05-07 Google Llc Coherency detection and information management system
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
KR102384641B1 (ko) * 2017-02-20 2022-04-08 엘지전자 주식회사 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법
DE102017206281A1 (de) * 2017-04-12 2018-10-18 Bayerische Motoren Werke Aktiengesellschaft Verarbeitung einer Spracheingabe
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
KR102170201B1 (ko) * 2017-10-03 2020-10-27 구글 엘엘씨 센서 기반 검증을 통한 차량 기능 제어
DE102017128651A1 (de) * 2017-12-02 2019-06-06 Tobias Rückert Dialogsystem und Verfahren zur Umsetzung von Anweisungen eines Nutzers
CN107818797B (zh) * 2017-12-07 2021-07-06 苏州科达科技股份有限公司 语音质量评价方法、装置及其***
CN108109625B (zh) * 2017-12-21 2021-07-20 北京华夏电通科技股份有限公司 手机语音识别内外网传输***及方法
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
US10144346B1 (en) * 2018-03-31 2018-12-04 Jewel L. Dohan Voice-recognition/voice-activated vehicle signal system
US10860648B1 (en) * 2018-09-12 2020-12-08 Amazon Technologies, Inc. Audio locale mismatch detection
US11967318B2 (en) * 2019-01-08 2024-04-23 Samsung Electronics Co., Ltd. Method and system for performing speech recognition in an electronic device
CN109979487B (zh) * 2019-03-07 2021-07-30 百度在线网络技术(北京)有限公司 语音信号检测方法和装置
US11367438B2 (en) * 2019-05-16 2022-06-21 Lg Electronics Inc. Artificial intelligence apparatus for recognizing speech of user and method for the same
WO2021029642A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
EP3931826A4 (en) 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
KR102281602B1 (ko) * 2019-08-21 2021-07-29 엘지전자 주식회사 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition
US20230215459A1 (en) * 2021-12-30 2023-07-06 Comcast Cable Communication, Llc Methods and systems for voice control

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175091A (ja) * 1997-12-05 1999-07-02 Nec Corp 電話回線用音声認識装置
JP2001109486A (ja) * 1999-10-07 2001-04-20 Sony Corp 通信装置および方法、並びにプログラム格納媒体
JP2002539480A (ja) * 1999-03-09 2002-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識方法
US6487534B1 (en) * 1999-03-26 2002-11-26 U.S. Philips Corporation Distributed client-server speech recognition system
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US7191135B2 (en) * 1998-04-08 2007-03-13 Symbol Technologies, Inc. Speech recognition system and method for employing the same
EP0980574B1 (en) * 1997-10-20 2004-03-10 Koninklijke Philips Electronics N.V. Pattern recognition enrolment in a distributed system
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US20020077814A1 (en) 2000-12-18 2002-06-20 Harinath Garudadri Voice recognition system method and apparatus
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7013275B2 (en) 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US7720681B2 (en) * 2006-03-23 2010-05-18 Microsoft Corporation Digital voice profiles
EP2036079B1 (en) * 2006-04-27 2011-01-12 Mobiter Dicta Oy A method, a system and a device for converting speech
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US20080120094A1 (en) 2006-11-17 2008-05-22 Nokia Corporation Seamless automatic speech recognition transfer
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20080288252A1 (en) 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8762143B2 (en) 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8892443B2 (en) * 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
WO2012116110A1 (en) * 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175091A (ja) * 1997-12-05 1999-07-02 Nec Corp 電話回線用音声認識装置
JP2002539480A (ja) * 1999-03-09 2002-11-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識方法
US6487534B1 (en) * 1999-03-26 2002-11-26 U.S. Philips Corporation Distributed client-server speech recognition system
JP2001109486A (ja) * 1999-10-07 2001-04-20 Sony Corp 通信装置および方法、並びにプログラム格納媒体
US20060009980A1 (en) * 2004-07-12 2006-01-12 Burke Paul M Allocation of speech recognition tasks and combination of results thereof

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013180197A1 (ja) * 2012-05-30 2016-01-21 Meiji Seikaファルマ株式会社 新規β−ラクタマーゼ阻害剤とその製造法
JP2021505923A (ja) * 2018-02-12 2021-02-18 ラックスロボ カンパニー,リミティド 音声命令による位置基盤音声認識システム(A Location Based Voice Recognition System Using A Voice Command)
WO2019231055A1 (en) * 2018-05-31 2019-12-05 Hewlett-Packard Development Company, L.P. Converting voice command into text code blocks that support printing services
US11249696B2 (en) 2018-05-31 2022-02-15 Hewlett-Packard Development Company, L.P. Converting voice command into text code blocks that support printing services
KR20200127814A (ko) * 2019-05-02 2020-11-11 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
KR20210120960A (ko) * 2019-05-02 2021-10-07 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
KR102309540B1 (ko) 2019-05-02 2021-10-07 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
KR102429436B1 (ko) 2019-05-02 2022-08-04 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
US11721343B2 (en) 2019-05-02 2023-08-08 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same

Also Published As

Publication number Publication date
US20170229122A1 (en) 2017-08-10
US20120215539A1 (en) 2012-08-23
EP2678861A1 (en) 2014-01-01
EP2678861B1 (en) 2018-07-11
US9674328B2 (en) 2017-06-06
WO2012116110A1 (en) 2012-08-30
US10217463B2 (en) 2019-02-26
JP6317111B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
JP6317111B2 (ja) ハイブリッド型クライアントサーバ音声認識
KR102112814B1 (ko) 다이얼로그 시스템들에서의 파라미터 수집 및 자동 다이얼로그 생성
CN106201424B (zh) 一种信息交互方法、装置及电子设备
US11132509B1 (en) Utilization of natural language understanding (NLU) models
CN111837116B (zh) 自动构建或更新对话式ai***的对话流管理模型的方法
KR20190100334A (ko) 문맥상의 핫워드들
CN105122354B (zh) 分布式语音识别***中的语音模型检索
KR20190046623A (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
US11935521B2 (en) Real-time feedback for efficient dialog processing
KR20170115501A (ko) 크라우드 소싱에 기초해서 디지털 퍼스널 어시스턴트에 대한 언어 이해 분류기 모델을 업데이트하는 기법
US11574637B1 (en) Spoken language understanding models
US20210004538A1 (en) Method for providing rich-expression natural language conversation by modifying reply, computer device and computer-readable recording medium
US11721338B2 (en) Context-based dynamic tolerance of virtual assistant
CN116235164A (zh) 聊天机器人的范围外自动转变
JP2020042131A (ja) 情報処理装置、情報処理方法、およびプログラム
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN111556999B (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
US20240144923A1 (en) Using a generative adversarial network to train a semantic parser of a dialog system
US11481443B2 (en) Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
KR20180089242A (ko) 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US20230169273A1 (en) Systems and methods for natural language processing using a plurality of natural language models
US11646035B1 (en) Dialog management system
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
US11893996B1 (en) Supplemental content output
US11790898B1 (en) Resource selection for processing user inputs

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170510

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180329

R150 Certificate of patent or registration of utility model

Ref document number: 6317111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250