JP2011513795A - 文脈に基づく音声認識文法選択 - Google Patents

文脈に基づく音声認識文法選択 Download PDF

Info

Publication number
JP2011513795A
JP2011513795A JP2010549918A JP2010549918A JP2011513795A JP 2011513795 A JP2011513795 A JP 2011513795A JP 2010549918 A JP2010549918 A JP 2010549918A JP 2010549918 A JP2010549918 A JP 2010549918A JP 2011513795 A JP2011513795 A JP 2011513795A
Authority
JP
Japan
Prior art keywords
user
grammar
information
speech recognition
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010549918A
Other languages
English (en)
Other versions
JP2011513795A5 (ja
Inventor
デーヴィッド・ピー・シングルトン
デバジット・ゴーシュ
Original Assignee
グーグル・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グーグル・インコーポレーテッド filed Critical グーグル・インコーポレーテッド
Publication of JP2011513795A publication Critical patent/JP2011513795A/ja
Publication of JP2011513795A5 publication Critical patent/JP2011513795A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

とりわけ、この明細書の主題は、第1の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む方法において具体化され得る。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。

Description

この問題の明細書は、音声認識に関係する。
多モードアプリケーション(multimodal application)は、複数の種類、または複数のモードの入力を受け取ることができる。例えば、多モードアプリケーションは、タイプされた命令及びマウスクリックのようなユーザからの入力を受け取ることができるが、しかしながら、多モードアプリケーションは、更に、音声入力のような他の形式の入力を受け取ることができる。音声認識システムは、特定の語彙を含む文法を用いて音声入力を解釈することができる。
いくらかの多モードアプリケーションは、アプリケーションにおける異なる入力フィールドが異なる文法と関連付けられている用紙記入モデル(form-filling model)を実行する。例えば、多モードアプリケーションは、名前の語彙を含む“名前”文法を、人の名前を受け取る“名前”フィールドと関連付けることができる。人が、彼または彼女のマウスによって“名前”フィールドを選択するとき、多モードアプリケーションは、フィールドと関連付けられた“名前”文法を選択することができる。
概して、この文書は、1つ以上のユーザ操作に基づく黙示的な文脈情報に基づいて、音声認識において使用するための文法を選択することを説明する。
第1の一般的特徴において、コンピュータで実行される方法が説明される。前記方法は、第1の計算装置と関連付けられる非言語的ユーザ操作から取得された地理的情報を受信する段階を含む。前記非言語的ユーザ操作は、地理的位置におけるユーザの関心を意味する。前記方法は、更に、取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階とを含む。
第2の一般的特徴において、コンピュータで実行される方法が説明され、それは、計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階を含む。前記方法は、前記文脈情報に基づいて、地理的位置を取得する段階と、前記地理的位置と関連付けられた文法を識別する段階と、前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階とを含む。
更に別の一般的特徴において、システムが説明される。前記システムは、第1の計算装置と関連付けられる非言語的ユーザ操作に基づく文脈情報を受信するインタフェースを備える。前記非言語的ユーザ操作は、地理におけるユーザの関心を意味する。前記システムは、更に、受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバとを備える。
ここで説明されたシステム及び技術は、以下の利点の内の1つ以上を提供し得る。第1に、システムは、より大きな一般文法を使用する代りに文法の適切なサブセットを識別することによって、音声入力が認識されるスピードを増加することができる。更に、文法のサブセットを選択することは、サブセットと関連付けられた特定の文脈の中で与えられた音声命令に関する音声認識の正確度を増加し得る。システムは、更に、音声認識プロセスにおいてユーザの対話の量を減少させることができる。更に、追加の文法、もしくは、新しい文法が、ユーザに透過的な方法で(例えば、音声認識システムによって促すための明白なユーザ応答に基づく代わりに、ソフトウェアアプリケーションとのユーザの対話に基づいて)選択されることができる。
1つ以上の実施例の詳細は、以下の添付図面及び説明に明記される。他の特徴及び利点は、説明及び図面から、そして請求項から明白になる。
コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステムの図である。 音声認識のための文法の選択の際に使用される代表的クライアント及び代表的音声信号処理システムの図である。 文脈情報に基づいて文法を選択するための代表的な方法のフローチャートである。 音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット(screenshot)を示す図である。 説明されたシステム及び方法を実行するために使用され得る計算装置の構成図である。
様々な図面における同じ参照符号は、同じ要素を示す。
この文書は、音声認識において使用する文法を選択するためのシステム及び技術を説明する。更に具体的には、アプリケーションは、どのようにユーザがアプリケーションを実行する装置と対話するかに基づいて、文脈情報を生成することができる。その装置は、文脈情報を音声認識システムに送信することができる。音声認識システムは、文脈情報と関連付けられた個別文法を識別することができると共に、その次に、装置から受け取られた音声入力(例えば、装置のユーザからの音声命令)の音声信号認識に、識別された文法を用いることができる。
いくらかの実装において、文脈情報は、地理的情報を含む。もしユーザが携帯電話機上の携帯機器用ブラウザを使用して地図を表示する(view:見る)ならば、携帯電話機は、地図によって表示された地理的位置に関する情報を、音声認識システムに送信することができる。音声認識システムは、受信された情報に基づいて地理的位置を識別することができると共に、地理的位置と関連付けられた単語、構文等の語彙を含む文法を選択することができる。音声認識システムは、その次に、選択された文法を用いて、携帯電話機からの受信された音声入力を解釈することができる。
ユーザは、ユーザと関連付けられた装置が、(例えば、ユーザに割り当てられたクッキー(cookie)のような固有の識別子によって、)音声認識システムと文脈情報を共有することを許可する方を選ぶことができる。もしユーザが文脈情報を共有することを選ばないならば、音声認識システムは、デフォルト文法を用いるか、もしくは、音声認識処理において使用する個別文法を選択する際に使用するのための地理的または他の文脈情報に関してユーザに明白に促すことができる。
図1は、コンピュータで実行された音声認識において使用される文法を選択するための代表的なシステム100の図である。いくらかの実装において、代表的システム100は、ユーザ操作の結果として生成される黙示的な文脈情報に基づいて、文法を選択する。システム100は、クライアント装置102と、文法選択サーバ104と、音声認識サーバ106とを備える。
図1の実装において、クライアント102は、文法を選択するために文脈情報を使用する文法選択サーバ104に、文脈情報を送信する。文法選択サーバは、クライアント102から受け取られた音声入力を解釈するために選択された文法を使用する音声認識サーバ106に、選択された文法に関する情報を送信する。
例えば、クライアント102は、携帯機器用ブラウザ108を実行している携帯電話機であり得る。ユーザは、“氷の小屋(ice huts)”を販売する店を識別するために、携帯機器用ブラウザに検索を入力することができる。そのブラウザは、カナダ、ノースダコタ及びサウスダコタ、そしてミネソタにおける関連する店を示す地図を表示することができる。ユーザは、地図に表示するための位置を識別するためにブラウザによって使用される郵便番号のような位置識別子を、以前に入力した可能性がある。ユーザは、位置識別子を前のセッションにおいて入力することができると共に、ブラウザは、次のセッションにおける使用のために、識別子を記憶し得る(例えば、位置識別子は、クライアントに関するクッキーとして記憶されることができる)。
他の実装において、携帯電話機は、携帯機器用ブラウザ108の代わりに、専用のアプリケーション108を実行する。例えば、専用のアプリケーション108は、ウェブページのブラウジングを可能にしないかもしれないが、しかし、オンライン地図アプリケーションのような特定の遠隔アプリケーションとインタフェースするように構成されることができる。
“1”と分類された矢印によって示されるように、携帯電話機102上で動作する携帯機器用ブラウザまたは別のアプリケーションは、黙示的な地理的情報114を、文法選択サーバに送信することができる。いくらかの実装において、文脈情報は、携帯機器用ブラウザ108によって表示された地図に基づく黙示的な地理的情報114を含む。例えば、黙示的な地理的情報114は、表示された地図の中心を識別する座標を含むことができる。この例において、地図の中心は、ミネソタの中央の位置と一致する。
文法選択サーバ104は、受信された文脈情報に基づいて、文法を選択することができる(116)。いくらかの実装において、もし文脈情報が地理的情報114を含むならば、文法選択サーバは、地理的位置と関連付けられた文法112を識別するデータ蓄積部110にアクセスすることができる。個別文法は、特定の地理的位置と関連付けられることができる。
文法112の各々は、対応する地理的位置と関連付けられた語彙に対応する語彙を含むことができる。例えば、ミネアポリス、ミネソタと関係がある文法は、ミネアポリスに位置しているか、もしくはミネアポリスに関連して見いだされる、店、興味のある場所、イベント、ニュース等を説明する単語または表現を含むことができる。
図1において、黙示的な地理的情報114は、ミネソタの中心に位置決めされた場所に関する座標を含む。文法選択サーバは、最もミネソタの中心に近い場所に、固定されるか、または、中心を有する文法を識別する。文法選択サーバは、“2A”及び“2B”で分類された矢印によって示されるように、文法を識別する情報118を生成することができる。
次に、いくらかの実装において、“3”と分類された矢印によって示されるように、文法選択サーバ104は、識別された文法情報118を音声認識サーバ106に送信する。
ユーザは、音声入力120を矢印“4”によって示されるように音声認識サーバ106に送信する携帯電話機102に向かって発声することができる。音声認識サーバ106は、文法選択サーバ104によって識別された文法を用いて、音声入力120を解釈することができる。
認識サーバ106は、音声入力に基づいて、1つ以上の操作を実行することができる。いくらかの実装において、音声認識サーバ106は、“5”と分類された矢印によって示されるように、音声入力に基づいて、携帯電話機102へ応答を送信することができる。例えば、携帯電話機12のユーザは、“Paul Bunyan”の新しい検索を、聞こえるように(audibly:可聴音によって)要求することができる。携帯電話機102は、音声の検索要求を音声認識サーバ106に送信することができる。ユーザが携帯機器用ブラウザによって現在表示している(または以前に表示した)地図は、ミネソタが中心に置かれているので、音声認識サーバは、ミネソタの中心の近くに固定されるか、または中心が置かれる文法を使用する。音声認識サーバ106は、この文法を、音声入力“Paul Bunyan”に対応する音、単語、表現を検索するために使用する。いくらかの実装において、用語“Paul Bunyan”が、世界の他の部分と比較してミネソタと関係がある情報とより高い頻度で関連付けられているので、ミネソタの近くに、もしくはミネソタの中に固定された文法は、名前“Paul Bunyan”を解釈するために使用される情報を含み得る。
音声認識サーバ106は、携帯電話機102からの音声入力に対応するテキスト“Paul Bunyan”を送信することができる。携帯電話機102は、携帯機器用ブラウザ108上に、受け取られたテキストを表示することができる。もしユーザが音声認識サーバ106によって実行された翻訳を承認するならば、そのブラウザは、検索語としてテキスト“Paul Bunyan”を検索エンジンに提示することによって、新しい検索を開始することができる。他の実装において、音声認識サーバ106は、携帯電話機102のユーザからの承認なしで、用語“Paul Bunyan”を使用して、検索を開始することができる。音声認識サーバ106は、音声入力から認識されたテキストを前もって伝えずに、検索による結果を携帯電話機102に送信することができる。
図1の分類された矢印は、システム100において発生するイベントの代表的な系列を示す。しかしながら、イベントの発生は、示された系列に制限されない。例えば、系列における1つ以上のステップは、並列に発生することができる。
図2は、音声認識のための文法の選択の際に使用される代表的クライアント200及び代表的音声信号処理システム202の図である。クライアント200及び音声信号処理システム202は、いくらかの実装においてインターネット及びセルラネットワークを含むことができるネットワーク204を用いて、通信することができる。クライアント200は、同様にアプリケーション環境208を備える携帯電話機または他のモバイル機器206を含むことができる。アプリケーション環境208は、インターネットブラウザ210、マイクロホンインタフェース212、及びGPSトランシーバインタフェース214を含むことができる。音声信号処理システム202は、音声信号処理システム202のための、クライアント200、文法選択サーバ218、および音声認識サーバ220とのインタフェースとしての機能を果たす多モードサーバ216を備えることができる。
アプリケーション環境208の中のアプリケーションは、地理的連絡先情報222を生成するか、または識別することができると共に、この情報を多モードサーバ216に送信することができる。例えば、GPSトランシーバインタフェース214は、携帯電話機206の位置に基づいて、GPSトランシーバからGPS座標を受け取ることができる。GPSトランシーバインタフェース214は、GPS座標情報を多モードサーバ216に送信することができる。
いくらかの実装において、GPS座標情報は、ブラウザ210によって多モードサーバ216に提示されたハイパーテキストトランスポートプロトコル(hypertext transport protocol:HTTP)POST命令に含まれる統一資源識別子(uniform resource identifier:URI)の一部として付加されることができる。ブラウザ以外のアプリケーションを使用する他の実装において、そのアプリケーションは、命令におけるURIがGPS座標情報(または、他の文脈情報)を含んでいる、HTTP GET命令を生成することができる。別の実装において、GPS座標及び他の文脈情報は、URIに付加されないが、しかし、その代りに、HTTP要求(例えば、GETまたはPOST)の本文に、バイナリ情報として含まれる。
別の例において、ブラウザ210は、ブラウザ210によって表示された項目に関する地理的な文脈情報を送信することができる。例えば、もしユーザがバミューダ諸島の多数の言及を含むウェブページを表示するならば、ブラウザ210は、バミューダ諸島を指定する地理的な文脈情報を送信することができる。
多モードサーバ216は、地理的な文脈情報222を受信することができると共に、この情報を文法選択サーバ218に送信することができる。文法選択サーバ218は、位置を識別するために地理的な文脈情報222を使用する逆ジオコーダ(reverse geocoder)224を備えることができる。例えば、もし地理的な文脈情報222がGPS座標を含むならば、逆ジオコーダ224は、座標と地理的位置との間の記憶されたマッピング(mapping)を用いて、GPS座標に対応する位置を判定することができる。
いくらかの実装において、文法選択サーバは、特定の位置を個別文法に関連付ける文法インデックス226を含む。例えば、文法インデックス226は、場所“バミューダ諸島”を、その場所と関連付けられている語彙、構文等を含むバミューダ文法と結び付ける。
文法選択サーバ218は、逆ジオコーダ224で識別された位置と関連付けられた文法を識別することによって、文法インデックス226を使用して文法を選択する。文法インデックスは、文法IDを使用して、各々の文法を識別することができる。
文法選択サーバ218は、文法ID228を同様に音声認識システムに送信することができる多モードサーバ216に、選択された文法ID228を送信することができる。図2において示されなかった他の実装において、逆ジオコーダ224は、識別された位置に最も近い位置に関連付けられた文法を識別して、返すことができると共に、その場合に、その文法に関して選択された文法ID228を、多モードサーバ216に送信する。
音声認識システムは、次の音声信号処理において使用するための識別された文法を読み込むために、文法IDを使用することができる。例えば、音声認識サーバは、文法ID228を含む要求232を、文法に関するデータ蓄積部230に送信することができる。データ蓄積部は、文法ID232によって指定される文法234を返すことができる。
音声認識サーバは、携帯電話機206から続いて受信された音声信号を解釈するために文法234を使用することができる。例えば、そのユーザは、検索語を発声することができ、それは、携帯電話機206の中のマイクロホンによって受け取られる。マイクロホンインタフェース212は、マイクロホンからの音声信号236を、多モードサーバ216に対して送信することができる。
多モードサーバ216は、音声信号236を解釈するために音声信号デコーダ238を使用する音声認識サーバ220に、音声信号236を送信することができる。例えば、音声信号デコーダ238は、音声信号236をテキスト表現に処理するために、文法234を読み込むことができる。音声認識サーバ220は、例えば検索エンジン(図示せず)による検索を開始するために、テキスト表現を使用することができる。別の例において、解釈された音声信号は、多モードサーバ216にテキスト240として送信されることができる。多モードサーバ216は、携帯電話機206に、テキスト240を送信して返すことができる。携帯電話機106は、ブラウザ210、またはアプリケーション環境208における別のアプリケーションを使用して、テキストを表示することができる。
いくらかの実装において、クライアント200は、新しいユーザの対話に基づいて、新しい地理的な文脈情報を提示する。例えば、もしユーザが場所を変更したならば、携帯電話機206の中のGPSトランシーバは、新しいGPS座標を多モードサーバ216に送信することができる。別の例において、そのユーザは、異なる位置と関連付けられた地図を表示することができる。ブラウザ210は、新しい地図の位置を多モードサーバ216に送信することができる。音声信号処理システムは、新しい地理的な文脈情報に基づいて、新しい文法を選択すると共に、新しい文法に基づいて、受信された音声信号を解釈することができる。
多モードサーバ216、文法選択サーバ218、及び音声認識サーバ220が、個別の装置として例証されるが、サーバは、結合されて1つの装置になることができるか、もしくは、1つのサーバは、複数の装置を用いて実施されることができる。
図3は、文脈情報に基づいて文法を選択するための代表的方法300のフローチャートである。システム200及び202は、方法300の一例の実施に使用される。しかしながら、システム100を含む他のシステムが、方法300を実施することができる。
ステップ302において、セッションが、クライアント200と音声信号処理システム202との間で作成される。例えば、携帯電話機206は、(例えば、HTTPプロトコルに基づいて)多モードサーバ216と通信セッションを確立することができる。そのセッションは、例えば、ブラウザが検索エンジン(例えば、検索ウェブページ、対話型の地図、ユーザがサイトで主催されたプロファイルを検索することを可能にする社交ネットワーキングサイト等)のためのウェブインタフェースにアクセスする場合に確立されることができる。別の実装において、特定のアプリケーションが携帯電話機206上で開始される場合に、そのセッションは確立される。例えば、専用の地図プログラムが携帯電話機206上で開始されるとき、セッションが開始され得る。
任意のステップ304において、ユーザIDが受け取られる。例えば、携帯電話機206は、携帯電話機のメモリ内にクッキー(cookie)を記憶する携帯機器用ブラウザを備え得る。それらのクッキーは、携帯電話機のユーザを識別する識別子を含むことができる。音声信号処理システム202は、携帯機器用ブラウザの音声信号処理システム202との以前の対話、または、携帯機器用ブラウザの音声信号処理システム202がアクセスすることができる別のサーバとの以前の対話に応答して、ユーザIDを、ブラウザに対して以前に送信した可能性がある。例えば、そのユーザは、検索エンジンのためのインタフェースを含むウェブページを訪れることができる。検索エンジンは、固有の識別子をユーザに発行することができる。音声信号処理システム202は、検索エンジンによって記憶される識別子のリストにアクセスすることができる。
ステップ306において、文脈情報が受信される。例えば、多モードサーバ216は、モバイル機器206の現在の位置を指定するGPS座標のような地理的な文脈情報を受信する。
いくらかの実装において、多モードサーバ216は、アプリケーション固有の文脈情報のような、他の文脈情報を受信することができる。クライアント202は、どのアプリケーションがユーザによってアクセスされるかを指定する情報を送信することができる。例えば、その情報は、そのユーザがブラウザアプリケーションと対話していることを指定することができる。更に、その情報は、アプリケーションのユーザによって以前に行われた過去のナビゲーションまたは他の操作の履歴を含むことができる。例えば、文脈情報は、ユーザが、郵便番号を指定することによって地図を要求したこと、与えられた地図上でズームアウト(zoom out)したこと、地図上で西におおよそ200マイル進んだこと、地図の衛星写真(satellite view)を要求したこと、興味のある場所が地図上で表示されることを要求したこと、等を指定することができる。
別の実装において、多モードサーバ216は、デスクトップコンピュータであり得るクライアント200上で動作するアプリケーションによって表示された項目に関する文脈情報を受信することができる。例えば、そのユーザは、金融情報内容、娯楽ニュース内容、技術ニュース内容等のような、いくらかの種類の内容を含むポータルウェブページを表示する(見る)ことができる。もしユーザのカーソルが金融情報内容の上をうろつくならば、計算装置は、カーソルを囲む領域から情報を抽出することができる(例えば、カーソルの中心の半径の中のテキストが抽出されることができる)。抽出された情報のいくらか、または全ては、多モードサーバに送信された文脈情報に含まれることができる。
ステップ308において、文法が、受信された文脈情報に基づいて選択される。例えば、文法選択サーバ218は、ユーザのマウスがウェブページ上で金融情報を示す内容の上をうろついていることを示す受信された文脈情報における金融上の語彙を含む文法を選択することができる。更に具体的には、文法選択サーバ218の中の分類モジュール(図示せず)は、抽出された内容を分類することができる。文法選択サーバ218は、抽出された内容の分類の結果として生じる1つ以上のキーワードを、文法インデックス226によって文法と関連付けられたキーワードと照合することができる。
別の例において、文法選択サーバ218は、携帯電話機206の現在の位置を示すGPS座標と対応する特定の地理と関連付けられた文法を選択することができる。
更に別の例において、もしそのユーザが特定のアプリケーションと対話していることを、受信された文脈情報が明示するならば、文法選択サーバ218は、アプリケーション固有の語彙を含む文法を選択することができる。例えば、もしそのユーザが(例えば、クライアント200に内在するか、もしくはブラウザ210によって主催されてアクセスされる)カレンダーアプリケーションと対話しているならば、文法選択サーバ218は、カレンダー固有の語彙、及びカレンダー固有の文法規則を含む文法を選択することができる。
文法選択サーバ218は、更に、文法を選択するために受け取られたユーザIDを使用することができる。いくらかの実装において、文法は、ユーザの過去のウェブ検索履歴に基づいて組み立てられ得る。例えば、もしユーザが考古学と関連付けられた過去のウェブ検索照会を頻繁に行ったならば、文法形成器(grammar builder)(図示せず)は、考古学と関連付けられた語彙、構文等を含む、ユーザのために個人化された文法を組み立てることができる。
いくらかの実装において、2つ以上の文法が、1つ以上の種類の文脈情報を用いて選択されることができる。例えば、ユーザによって表示された(viewed:見られた)項目から得られた文脈情報は、2つ以上の文法に関連がある可能性がある。この場合に、文法選択サーバは、音声認識における使用のために、複数の文法を選択することができる。
ステップ310において、音声信号が受信されることができる。例えば、装置206のユーザは、装置206のマイクロホンに向かって発声することができる。マイクロホンインタフェース212は、マイクロホンによって獲得された音声を音声認識サーバ220に送信することができる。
ステップ312において、受信された音声信号は、以前に選択された文法を用いて解釈されることができる。例えば、音声認識サーバ220は、文法選択サーバ218が識別した文法を選択するために、文法を記憶するデータ構造にアクセスすることができる。音声信号デコーダ238は、受信された音声信号を解釈するために、選択された文法を使用することができる。
ステップ314において、セッションがタイムアウト(time out)したかどうかが判定される。例えば、ステップ302においてクライアント200と音声信号処理システム202との間で確立されたセッションは、タイムリミットを有することができる。もしタイムリミットが超過されるならば、方法300は、終わることができる。別の実装において、もしセッションがタイムアウトしたならば、音声信号処理システム202は、新しいセッションを確立するようにクライアント200に促す。いくらかの実装において、特に、もしそのクライアントが長期の間無活動であるならば、セッション時間を制限することは、クライアントが音声信号処理システムを独占するのを防止することができる。
ステップ316において、文脈が変更されたかどうかが判定される。例えば、ユーザは、場所を変更することができる。もしユーザが新しい場所に移動するならば、GPSトランシーバは、新しい場所を反映するための応答において、GPS座標を更新することができる。新しい文脈情報は、ステップ306及び次のステップに関連して以前に示されたように、受信されて、処理されることができる。別の例において、そのユーザは、異なるアプリケーションにアクセスすることができるか、または、同じアプリケーションを使用してデータごとに異なる表示(view:ビュー)にアクセスすることができる。アプリケーションにおける変化、またはアプリケーションの使用における変化は、新しい文脈情報の伝送を開始することができる。
もし文脈情報が変わらないならば、その場合に、方法300は、ステップ310で始まるステップを繰り返すことができる。例えば、音声信号処理システム202は、あらゆる受信された音声信号を解釈するために、以前に選択された文法を使用し続けることができる。
図4は、文脈情報に基づいて文法を選択する音声信号処理システムと対話するクライアントのためのユーザインタフェースの代表的なスクリーンショット(screenshot)を示す図である。スクリーンショット400は、地図402を含む。ユーザは、クライアントのためのブラウザを開始し、そして、“GOOGLE Maps”もしくは“YAHOO! Maps”のようなオンライン対話型地図サービスにログオンすることができる。そのユーザは、郵便番号、市外局番、市および州、または、他の位置識別子を入力することによって、地図に場所を指定することができる。例えば、そのユーザは、郵便番号“95661”を入力することができる。その場合に、地図サービスは、カリフォルニアのローズビル(Roseville, CA)に対応する地図を、ブラウザ上で表示するために送信することができる。
ブラウザ(または、ブラウザによって表示されたウェブページ)は、検索オプションウィンドウ404を提示することができる。ユーザは、店、興味のある場所、位置等の検索を開始するために、検索オプションウィンドウ404と対話することができると共に、地図402上に結果を表示することができる。オプション406によって示されたように、検索オプションウィンドウ404は、“入力された”検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、オプション406を選択することができる。その代りに、そのユーザは、選択肢“新しい検索を入力する”を発声することができる。その場合に、そのユーザは、キーパッドによって検索を入力することができる。
オプション408によって示されたように、検索オプションウィンドウは、更に、口語の検索を受け取ることができる。例えば、ユーザは、キーパッドを使用して、または選択肢を発声することによって、オプション408を選択することができる。
スクリーンショット410は、ユーザが新しい検索を発声するのを望むことを示すオプション408をユーザが選択した後で表示された代表的なインタフェースを示す。この例において、そのクライアントは、店の種類または店名を発声するように、ユーザに視覚的に促す。図412は、検索語“フライの店(Fry's)”を発声するユーザを例証する。
他の実装において、クライアントは、興味のある場所、地理的位置等のような、他の用語を発声するように、ユーザに促すことができる。
更に他の実装において、そのユーザは、検索を発声するように、視覚的に促されないが、しかし、自発的に検索を開始することができる。例えば、ブラウザは、技術ニュースを表示するウェブページを表示することができる。そのユーザは、“AJAXを検索しなさい”と言うであろう。更に他の実装において、そのクライアントは、検索もしくは他の音声入力を、入力するかもしくは発声するように、ユーザに対して聞こえるように(audibly:可聴音によって)促し得る。
別の実装において、そのユーザは、そのユーザが音声検索を開始したいことを示すために、携帯電話機上の“アンサーコール”キーのような、装置上のキーを押すことができる。そのユーザは、発声している間キーを押さえることができるか、もしくは、所定の長さの時間の間キーを押さえることによって、検索を開始することができる。後者の実装において、音声信号が検出されずに所定量の時間が経過した後で、音声検索は、終了することができる。
前のスクリーンショットにおいて示されなかったが、そのクライアントは、クライアントによって表示される地図402に関する地理的な情報を送信することができる。音声信号処理システムは、スクリーンショット410において表示される入力要求(prompt)に対する応答において受信された音声信号を解釈する際に使用するための地理的な情報と関連付けられた文法を選択することができる。
スクリーンショット416は、口語の検索用語“フライの店(Fry's)”に基づいて解釈された音声信号を示す。ユーザは、例えば各々の解釈と関連付けられた数字を、キーパッドを用いて入力するか、もしくは、発声することによって、可能な解釈の内の1つを選択することができる。スクリーンショット418は、フライの電気店の位置を識別する画鋲アイコン420を有する、カリフォルニアのローズビルの地図402を示す。
図5は、この書類で説明されたシステム及び方法を実施するために、クライアントとして、もしくはサーバまたは複数のサーバとして使用され得る計算装置500、550の構成図である。計算装置500は、ラップトップ、デスクトップ、ワークステーション、携帯情報機器、サーバ、ブレードサーバ、メインフレーム、及び、他の適切なコンピュータのような、デジタルコンピュータの様々な形式を表すことを意図している。計算装置550は、携帯情報機器、セルラー電話機、スマートフォン、及び、他の同様の計算装置のような、携帯機器(モバイル機器)の様々な形式を表すことを意図している。更に、計算装置500または550は、ユニバーサルシリアルバス(Universal Serial Bus:USB)フラッシュドライブを備えることができる。USBフラッシュドライブは、オペレーティングシステム、及び他のアプリケーションを記憶することができる。USBフラッシュドライブは、無線送信器、もしくは、他の計算装置のUSBポートに挿入され得るUSBコネクタのような、入力/出力コンポーネントを備えることができる。ここで示された構成要素、それらの接続及び関係、そしてそれらの機能は、単に代表的であるべきことが意図されると共に、この書類で説明及び/または主張された本発明の実施を制限するようには意図されない。
計算装置500は、プロセッサ502、メモリ504、記憶装置506、メモリ504と高速拡張ポート510につながる高速インタフェース508、及び低速バス514と記憶装置506につながる低速インタフェース512を備える。各々の構成要素502、504、506、508、510、及び512は、様々なバスを用いて相互接続されると共に、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。プロセッサ502は、計算装置500の中で、メモリ504内に、または記憶装置506上に記憶された、高速インタフェース508に連結された表示装置516のような外部の入力/出力装置上のGUI用のグラフィック情報を表示するための命令を含む、実行のための命令を処理することができる。他の実装において、必要に応じて、複数のメモリ及び複数の種類のメモリと一緒に、複数のプロセッサ及び/または複数のバスが使用され得る。更に、複数の計算装置500が、(例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムのような、)必要な動作の一部分を供給する各装置と接続され得る。
メモリ504は、計算装置500の中の情報を記憶する。1つの実装において、メモリ504は、揮発性記憶装置または複数の揮発性記憶装置である。別の実装において、メモリ504は、不揮発性記憶装置または複数の不揮発性記憶装置である。メモリ504は、更に、例えば磁気ディスクまたは光学ディスクのような、別の形式のコンピュータ読み取り可能な媒体であり得る。
記憶装置506は、計算装置500に大容量記憶装置を提供することが可能である。1つの実装において、記憶装置506は、例えばフロッピー(登録商標)ディスク装置、ハードディスク装置、光ディスク装置、または、テープ装置、フラッシュメモリまたは他の同様の固体状メモリ装置、または、ストレージエリアネットワーク(storage area network)または他の構成における装置を含む一連の装置のような、コンピュータ読み取り可能な媒体であり得るか、またはコンピュータ読み取り可能な媒体を含み得る。コンピュータプログラム製品は、情報担体において明白に具体化されることができる。コンピュータプログラム製品は、更に、実行されたときに、上述の方法のような1つ以上の方法を遂行する命令を含み得る。情報担体は、例えばメモリ504、記憶装置506、プロセッサ502上のメモリ、または伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。
高速制御器508は、計算装置500に関する帯域消費型操作(bandwidth-intensive operation)を管理し、一方、低速制御器512は、より少ない帯域消費型操作を管理する。機能のそのような割り当ては、単に代表的である。1つの実装において、高速制御器508は、メモリ504、(例えばグラフィックスプロセッサまたはアクセラレータを通して)表示装置516、及び様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート510に連結される。実装において、低速制御器512は、記憶装置506及び低速拡張ポート514に連結される。様々な通信ポート(例えば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を含み得る低速拡張ポートは、例えばキーボード、ポインティングデバイス、スキャナのような1つ以上の入力/出力装置に、あるいは例えばネットワークアダプタを通してスイッチまたはルータのようなネットワーク装置に、連結され得る。
図において示されたように、計算装置500は、多くの異なる形式において実施され得る。例えば、それは、標準のサーバ520として実施され得るか、またはそのようなサーバのグループにおいて複数回実施され得る。それは、更に、ラックサーバシステム524の一部として実施され得る。更に、それは、ラップトップコンピュータ522のようなパーソナルコンピュータにおいて実施され得る。その代わりに、計算装置500が提供する構成要素は、装置550のような携帯型機器(図示せず)内の他の構成要素と結合され得る。そのような装置のそれぞれは、1つ以上の計算装置500、550を含み得ると共に、全体のシステムは、相互に通信する複数の計算装置500、550で構成され得る。
計算装置550は、その他の構成要素として、プロセッサ552、メモリ564、表示装置554のような入力/出力装置、通信インタフェース566、及びトランシーバ568を備える。装置550は、更に、追加の記憶装置を提供するために、例えばマイクロドライブまたは他の装置のような記憶装置を提供され得る。それぞれの構成要素550、552、564、554、566、及び568は、様々なバスを用いて相互接続されると共に、構成要素の内のいくつかは、共通のマザーボードに搭載されるか、または必要に応じて他の方法で搭載され得る。
プロセッサ552は、メモリ564に格納される命令を含めて、計算装置550の中の命令を実行することができる。そのプロセッサは、個別の、そして複数のアナログプロセッサ及びデジタルプロセッサを含むチップのチップセットとして実施され得る。更に、そのプロセッサは、多くのアーキテクチャの内のいずれかを使用して実装され得る。例えば、プロセッサ410は、CISC(Complex Instruction Set Computer:複合命令セットコンピュータ)プロセッサ、RISC(Reduced Instruction Set Computer:縮小命令セットコンピュータ)プロセッサ、または、MISC(Minimal Instruction Set Computer:最小命令セットコンピュータ)プロセッサであり得る。例えば、そのプロセッサは、例えばユーザインタフェース、装置550によって実行されたアプリケーション、及び装置550による無線通信の制御のような、装置550の他の構成要素の調整を提供し得る。
プロセッサ552は、制御インタフェース558、及び表示装置554に連結される表示装置インタフェース556を通してユーザとコミュニケーションを取り得る。例えば、表示装置554は、TFT液晶表示装置(Thin-Film-Transistor Liquid Crystal Display)またはOLED(Organic Light Emitting Diode)表示装置、あるいは他の適切な表示装置技術であり得る。表示装置インタフェース556は、ユーザに対してグラフィック情報及び他の情報を提示するために、表示装置554を駆動するための適切な回路構成を含み得る。制御インタフェース558は、ユーザから命令を受け取ると共に、プロセッサ552に対する提示用にそれらを変換し得る。更に、外部インタフェース562は、装置550と他の装置との近接した領域の通信を可能にするために、プロセッサ552との通信に提供され得る。例えば、外部インタフェース562は、いくらかの実装における有線通信、もしくは他の実装における無線通信を提供し得ると共に、複数のインタフェースが同様に使用され得る。
メモリ564は、計算装置550の中の情報を記憶する。メモリ564は、1つ以上のコンピュータ読み取り可能な媒体、揮発性記憶装置または複数の揮発性記憶装置、あるいは不揮発性記憶装置または複数の不揮発性記憶装置として実施されることができる。更に、拡張メモリ574が提供されて、拡張インタフェース572を通して装置550に接続されると共に、拡張インタフェース572は、例えばSIMM(Single In Line Memory Module)カードインタフェースを含み得る。そのような拡張メモリ574は、装置550に追加の記憶スペースを提供し得るか、あるいは、装置550のためのアプリケーションまたは他の情報を同様に記憶し得る。具体的には、拡張メモリ574は、上述の処理を実行するか、または補うための命令を含み得ると共に、同様に安全な情報を含み得る。従って、例えば、拡張メモリ574は、装置550のための安全性モジュールとして提供され得ると共に、装置550の安全な使用を可能にする命令によってプログラムされ得る。更に、例えばハッキング不可能な方法で識別情報をSIMMカード上に配置するように、安全なアプリケーションが、追加の情報と共に、SIMMカードによって提供され得る。
例えば、以下で論じられるように、そのメモリは、フラッシュメモリ、及び/またはNVRAMメモリを含み得る。1つの実装において、コンピュータプログラム製品は、情報担体において明白に具体化される。コンピュータプログラム製品は、実行されたときに、上述の方法のような1つ以上の方法を遂行する命令を含む。情報担体は、例えばメモリ564、拡張メモリ574、プロセッサ552上のメモリ、または例えばトランシーバ588あるいは外部インタフェース562を介して受信され得る伝送された信号のような、コンピュータ読み取り可能な媒体もしくは機械読み取り可能な媒体である。
装置550は、通信インタフェース566を通して無線で通信し得ると共に、通信インタフェース566は、必要ならばデジタル信号処理回路構成を含み得る。とりわけ、通信インタフェース566は、例えばGSM音声コール、SMS、EMS、またはMMS通信、CDMA、TDMA、PDC、WCDMA、CDMA2000、またはGPRSのような様々なモードまたはプロトコルに基づいて通信を提供し得る。例えば、そのような通信は、無線周波数トランシーバ568を通して発生し得る。更に、ブルートゥース(Bluetooth)、WiFi(ワイファイ)、または他のそのようなトランシーバ(図示せず)を使用することによって、短距離通信が発生し得る。更に、GPS(Global Positioning System)受信機モジュール570は、装置550に、追加のナビゲーション及び場所に関連する無線データを提供し得ると共に、無線データは、必要に応じて、装置550上で動作するアプリケーションによって使用され得る。
装置550は、更に、ユーザから口語の情報を受け取ると共に、それを使用に適したデジタル情報に変換し得る音声コーデック560を使用して、聞こえるように(audibly:可聴音によって)通信し得る。音声コーデック560は、同様に、例えば装置550の受話器において、例えばスピーカなどを通してユーザに対する可聴音を生成し得る。音声電話からの音を含み得るそのような音は、記録された音(例えば、ボイスメッセージ、音楽ファイル等)を含み得ると共に、更に、装置550上で動作するアプリケーションによって生成された音を含み得る。
図において示されたように、計算装置550は、多くの異なる形式において実施され得る。例えば、それは、セルラー電話機580として実施され得る。それは、更に、スマートフォン582、携帯情報機器、または他の同様の携帯型機器の一部として実施され得る。
ここで説明されたシステム及び技術の様々な実装は、デジタル電子回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれの組み合わせにおいて実現されることができる。これらの様々な実装は、少なくとも1つのプログラム可能なプロセッサを含むプログラマブルシステムで実行可能であるか、及び/または解釈可能である1つ以上のコンピュータプログラムにおける実装を含むことができると共に、少なくとも1つのプログラム可能なプロセッサは、そこからデータと命令を受信すると共に、そこにデータと命令を送信するように、記憶装置システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に連結された、特殊用途または一般用途のプロセッサであり得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラム可能なプロセッサのための機械語命令を含むと共に、高水準の手続き的及び/またはオブジェクト指向のプログラミング言語で、及び/または、アセンブリ言語/機械語で実装されることができる。ここで使用されるように、用語“機械読み取り可能な媒体”、“コンピュータ読み取り可能な媒体”は、プログラム可能なプロセッサに機械語命令及び/またはデータを提供するために使用される、あらゆるコンピュータプログラム製品、器具、及び/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理回路(Programmable Logic Device:PLD))のことを指しており、機械読み取り可能な信号として機械語命令を受け取る機械読み取り可能な媒体を含んでいる。用語“機械読み取り可能な信号”は、プログラム可能なプロセッサに機械語命令及び/またはデータを提供するために使用されるあらゆる信号のことを指している。
ユーザとの対話を提供するために、ここで説明されたシステム及び技術は、情報をユーザに表示するための表示装置(例えばCRT(ブラウン管)またはLCD(液晶表示装置)モニタ)、そして、それによりユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えばマウスまたはトラックボール)を有するコンピュータ上で実施されることができる。他の種類の装置が、同様に、ユーザとの対話を提供するために使用されることができ、例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚に関するフィードバック(例えば視覚のフィードバック、聴覚のフィードバック、または触覚のフィードバック)であり得ると共に、ユーザからの入力は、音入力、音声入力、触覚入力を含むあらゆる形式で受信されることができる。
ここで説明されたシステム及び技術は、計算システムにおいて実施されることができると共に、計算システムは、(例えばデータサーバのような)バックエンドコンポーネントを備えるか、もしくは、計算システムは、(例えばアプリケーションサーバのような)ミドルウェアコンポーネントを備えるか、もしくは、計算システムは、(それを通してユーザがここで説明されたシステム及び技術の実装と対話することができる、グラフィカルユーザインタフェースまたはウェブブラウザを有するクライアントコンピュータのような)フロントエンドコンポーネントを備えるか、もしくは、計算システムは、1つ以上のそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントのあらゆる組み合わせを備える。システムのコンポーネント(構成要素)は、デジタルデータ通信のあらゆる形式または媒体(例えば通信ネットワーク)によって、相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、(特別なメンバーもしくは静的なメンバーを有する)ピアツーピアネットワーク(peer-to-peer network)、グリッドコンピューティング基盤(grid computing infrastructure)、及びインターネットを含む。
計算システムは、クライアント及びサーバを備えることができる。クライアント及びサーバは、一般的に、相互から遠く離れており、そして通常は通信ネットワークによって情報のやり取りをする。クライアントとサーバの関係は、それぞれのコンピュータ上で動作すると共に、相互にクライアントとサーバの関係を有するコンピュータプログラムのおかげで発生する。
2、3の実装が上記で詳細に説明されたが、他の修正が可能である。例えば、地理的位置を選択するために使用される地理情報は、ユーザによって表示されたテキストに基づいて取得されることができる。例えば、ユーザは、オクラホマの大きい州を描写するウェブサイトを訪問することができる。ウェブブラウザ(または他のアプリケーション)は、そのユーザがオクラホマに興味があることを示す地理情報を送信することができる。いくらかの実装において、もしオクラホマに関係した言葉のしきい値数が見いだされるならば、ウェブブラウザ(または他のアプリケーション)は、地理情報のみを送信する。
別の実装において、地理的位置を選択するために使用される地理情報は、ユーザによって入力されたテキストに基づいている。例えば、そのユーザは、“山火事”及び“カリフォルニア”のような検索語を検索エンジンインタフェースに入力し得る。文法選択器は、更に、カリフォルニアの中の特定の位置を識別するために、これらの用語を相互に関連付けることができる。例えば、統合された一群の検索エンジンユーザが提供する最近の検索結果は、結果が多くの場合にカリフォルニアのサンディエゴの記載を含むことを示し得る。文法選択器は、最近の検索結果に基づいて、サンディエゴの近くに固定された文法を識別することができる。
更に、装置の現在の場所を位置特定することが、携帯電話機または他の携帯機器の中のGPS機能に関して説明されたが、他の位置情報検出システム(location-based detection system)が使用されることができる。例えば、携帯機器の位置は、更に、セル基点(cell of origin:COO)移動***置特定技術、到達時間差(time difference of arrival:TDOA)信号検出技術、到来時刻(time of arrival:TOA)技術、到来角(angle of arrival:AoA)測定技術、強化観測時間差(enhanced observed time difference:EOTD)技術、等によって確認されることができる。
他の実装において、文法形成器は、ユーザによって送信されるか、もしくは受信された電子メールに基づいて、ユーザのために個人化された文法を編集することができる。文法選択サーバは、クライアントから受け取られたユーザIDに基づいて、使用するべき個人化された文法を選択することができる。
更に、図において描写された論理フローは、望ましい結果を達成するために、示された特定の順序、及び順次的な順序を必要としない。更に、説明されたフローに他のステップが提供され得るか、または説明されたフローからステップが消去され得ると共に、説明されたシステムに他の構成要素が増加され得るか、または説明されたシステムから構成要素が除去され得る。従って、他の実施例は、添付の請求項の範囲内にある。
100 代表的システム
102 クライアント装置
104 文法選択サーバ
106 音声認識サーバ
108 携帯機器用ブラウザ
110 データ蓄積部
112 地理的位置と関連付けられた文法
114 黙示的な地理的情報
118 文法を識別する情報(文法情報)
120 音声入力
122 応答
200 代表的クライアント
202 代表的音声信号処理システム
204 ネットワーク
206 携帯電話機(モバイル機器)
208 アプリケーション環境
210 インターネットブラウザ
212 マイクロホンインタフェース
214 GPSトランシーバインタフェース
216 多モードサーバ
218 文法選択サーバ
220 音声認識サーバ
222 地理的な文脈情報(地理的連絡先情報)
224 逆ジオコーダ
226 文法インデックス
228 文法ID
230 データ蓄積部
232 文法IDを含む要求
234 文法
236 音声信号
238 音声信号デコーダ
240 テキスト
300 代表的方法
400 スクリーンショット
402 地図
404 検索オプションウィンドウ
406 オプション
408 オプション
410 スクリーンショット
412 図
416 スクリーンショット
418 スクリーンショット
420 画鋲アイコン
500 計算装置
502 プロセッサ
504 メモリ
506 記憶装置
508 高速インタフェース
510 高速拡張ポート
512 低速インタフェース
514 低速バス
516 表示装置
520 標準のサーバ
522 ラップトップコンピュータ
524 ラックサーバシステム
550 計算装置
552 プロセッサ
554 表示装置
556 表示装置インタフェース
558 制御インタフェース
560 音声コーデック
562 外部インタフェース
564 メモリ
566 通信インタフェース
568 トランシーバ
570 GPS受信機モジュール
572 拡張インタフェース
574 拡張メモリ
580 セルラー電話機
582 スマートフォン

Claims (20)

  1. コンピュータで実行される方法であって、
    第1の計算装置と関連付けられると共に、地理的位置におけるユーザの関心を意味する非言語的ユーザ操作から取得された地理的情報を受信する段階と、
    取得された前記地理的情報を使用して、前記地理的位置と関連付けられた文法を識別する段階と、
    前記ユーザからの音声入力の音声認識処理のために識別された前記文法を選択する際に使用するための文法指示子を出力する段階と
    を含むことを特徴とする方法。
  2. 前記非言語的ユーザ操作が、前記地理的位置に前記第1の計算装置を移動させることを含む
    ことを特徴とする請求項1に記載の方法。
  3. 受信された前記地理的情報が、グローバルポジショニングシステム(GPS)データを含む
    ことを特徴とする請求項2に記載の方法。
  4. 前記非言語的ユーザ操作が、前記地理的位置と関連付けられた地図を表示することを含む
    ことを特徴とする請求項1に記載の方法。
  5. 前記地図の中心における位置を前記地理的位置として選択する段階を更に含む
    ことを特徴とする請求項4に記載の方法。
  6. 表示された前記地図のズームレベルに基づいて、前記地理的位置を選択する段階を更に含む
    ことを特徴とする請求項5に記載の方法。
  7. 前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを表示することを含む
    ことを特徴とする請求項1に記載の方法。
  8. 前記非言語的ユーザ操作が、前記地理的位置と関連付けられたテキストを入力することを含む
    ことを特徴とする請求項1に記載の方法。
  9. 前記ユーザと関連付けられたユーザ識別子を受信する段階を更に含む
    ことを特徴とする請求項1に記載の方法。
  10. 前記ユーザ識別子と関連付けられたユーザ文法を識別する段階と、
    前記ユーザからの前記音声入力の音声認識処理のために前記ユーザ文法を選択する際に使用するためのユーザ文法指示子を、音声認識プロセッサに出力する段階と
    を更に含むことを特徴とする請求項9に記載の方法。
  11. 前記ユーザの過去のインターネット検索履歴に基づいて、前記ユーザ文法を生成する段階を更に含む
    ことを特徴とする請求項10に記載の方法。
  12. 前記ユーザと関連付けられた電子メールに基づいて、前記ユーザ文法を生成する段階を更に含む
    ことを特徴とする請求項10に記載の方法。
  13. 非言語的ユーザ操作のリストを受け取る段階を更に含む
    ことを特徴とする請求項1に記載の方法。
  14. 前記リストに基づいて、アプリケーション文脈を識別する段階と、
    前記アプリケーション文脈と関連付けられたアプリケーション文脈文法を識別する段階と
    を更に含むことを特徴とする請求項13に記載の方法。
  15. ユーザからの音声入力の音声認識処理のためにアプリケーション文脈文法を選択する際に使用するためのアプリケーション文脈識別子を出力する段階を更に含む
    ことを特徴とする請求項14に記載の方法。
  16. 前記非言語的ユーザ操作のリストが、アプリケーションの中のユーザのナビゲーションと関連付けられた識別子を含む
    ことを特徴とする請求項13に記載の方法。
  17. 前記リストが、ユーザによって選択されたアプリケーションメニュー項目を含む
    ことを特徴とする請求項16に記載の方法。
  18. もし追加の非言語的操作がユーザの新しい関心を意味するならば、前記新しい関心に基づく異なる文法を選択する段階を更に含む
    ことを特徴とする請求項1に記載の方法。
  19. コンピュータで実行される方法であって、
    計算装置と関連付けられると共に、音声認識プロセッサによって促されたものではないユーザ操作に基づく文脈情報を受信する段階と、
    前記文脈情報に基づいて、地理的位置を取得する段階と、
    前記地理的位置と関連付けられた文法を識別する段階と、
    前記ユーザからの音声入力の処理において使用する前記文法を選択する際に使用するための文法識別子を出力する段階と
    を含むことを特徴とする方法。
  20. 第1の計算装置と関連付けられると共に、地理におけるユーザの関心を意味する非言語的ユーザ操作に基づく文脈情報を受信するインタフェースと、
    受信された前記文脈情報から取得された地理的位置と関連付けられた文法を識別するための手段と、
    前記ユーザから受け取られた音声入力を解釈するために識別された前記文法を使用するように構成された音声認識サーバと
    を備えることを特徴とするシステム。
JP2010549918A 2008-03-07 2009-03-06 文脈に基づく音声認識文法選択 Pending JP2011513795A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/044,310 US8255224B2 (en) 2008-03-07 2008-03-07 Voice recognition grammar selection based on context
PCT/US2009/036369 WO2009111721A2 (en) 2008-03-07 2009-03-06 Voice recognition grammar selection based on context

Publications (2)

Publication Number Publication Date
JP2011513795A true JP2011513795A (ja) 2011-04-28
JP2011513795A5 JP2011513795A5 (ja) 2012-04-26

Family

ID=41054557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010549918A Pending JP2011513795A (ja) 2008-03-07 2009-03-06 文脈に基づく音声認識文法選択

Country Status (6)

Country Link
US (6) US8255224B2 (ja)
EP (1) EP2260264A4 (ja)
JP (1) JP2011513795A (ja)
KR (4) KR101881985B1 (ja)
CN (3) CN113506567A (ja)
WO (1) WO2009111721A2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527379A (ja) * 2016-07-08 2019-09-26 グーグル エルエルシー フォローアップ音声クエリ予測
JP2020016784A (ja) * 2018-07-26 2020-01-30 Zホールディングス株式会社 認識装置、認識方法及び認識プログラム
JP2021068167A (ja) * 2019-10-23 2021-04-30 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
JP2022509880A (ja) * 2018-12-03 2022-01-24 グーグル エルエルシー 音声入力処理
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant

Families Citing this family (358)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
DE112008000915T5 (de) * 2007-06-11 2010-04-22 Mitsubishi Electric Corp. Navigationssystem
US10013536B2 (en) * 2007-11-06 2018-07-03 The Mathworks, Inc. License activation and management
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20090182562A1 (en) * 2008-01-14 2009-07-16 Garmin Ltd. Dynamic user interface for automated speech recognition
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8380512B2 (en) * 2008-03-10 2013-02-19 Yahoo! Inc. Navigation using a search engine and phonetic voice recognition
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20130218565A1 (en) * 2008-07-28 2013-08-22 Nuance Communications, Inc. Enhanced Media Playback with Speech Recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US8965881B2 (en) * 2008-08-15 2015-02-24 Athena A. Smyros Systems and methods for searching an index
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US10346879B2 (en) * 2008-11-18 2019-07-09 Sizmek Technologies, Inc. Method and system for identifying web documents for advertisements
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
US8346901B2 (en) * 2009-01-26 2013-01-01 Apple Inc. Selection of an appropriate online content source based on program information
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US9117448B2 (en) * 2009-07-27 2015-08-25 Cisco Technology, Inc. Method and system for speech recognition using social networks
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
US10319376B2 (en) * 2009-09-17 2019-06-11 Avaya Inc. Geo-spatial event processing
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) * 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8442827B2 (en) * 2010-06-18 2013-05-14 At&T Intellectual Property I, L.P. System and method for customized voice response
US8538760B2 (en) * 2010-07-13 2013-09-17 Qualcomm Incorporated Methods and apparatuses for identifying audible samples for use in a speech recognition capability of a mobile device
US8645136B2 (en) 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US20120059658A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for performing an internet search
US8718622B2 (en) * 2010-09-22 2014-05-06 Avaya Inc. Pervasive contact center
US9015043B2 (en) * 2010-10-01 2015-04-21 Google Inc. Choosing recognized text from a background environment
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN102074231A (zh) * 2010-12-30 2011-05-25 万音达有限公司 语音识别方法和语音识别***
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102270213A (zh) * 2011-04-20 2011-12-07 深圳市凯立德科技股份有限公司 一种导航***兴趣点的搜索方法、装置及位置服务终端
US8538742B2 (en) * 2011-05-20 2013-09-17 Google Inc. Feed translation for a social network
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
US8706499B2 (en) * 2011-08-16 2014-04-22 Facebook, Inc. Periodic ambient waveform analysis for enhanced social functions
US8707157B1 (en) * 2011-08-19 2014-04-22 Intuit Inc. System and method for pre-populating forms using statistical analysis
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10672280B1 (en) * 2011-09-29 2020-06-02 Rockwell Collins, Inc. Bimodal user interface system, device, and method for streamlining a user's interface with an aircraft display unit
US9299110B2 (en) * 2011-10-19 2016-03-29 Facebook, Inc. Periodic ambient waveform analysis for dynamic device configuration
US8886546B2 (en) * 2011-12-19 2014-11-11 Verizon Patent And Licensing Inc. Voice application access
CN103226548A (zh) * 2012-01-30 2013-07-31 北京四维图新科技股份有限公司 一种互联网地图的搜索服务方法、装置和***
US8909255B1 (en) * 2012-02-21 2014-12-09 Google Inc. Reverse geocoder
US10326648B2 (en) * 2012-03-01 2019-06-18 Mentor Graphics Corporation Virtual use of electronic design automation tools
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
KR101951417B1 (ko) * 2012-03-09 2019-02-22 엘지전자 주식회사 휴대 전자기기 및 이의 제어 방법
KR101700819B1 (ko) * 2012-05-02 2017-02-01 한국전자통신연구원 음성 인식 장치 및 방법
US10019991B2 (en) * 2012-05-02 2018-07-10 Electronics And Telecommunications Research Institute Apparatus and method for speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013191599A1 (en) * 2012-06-18 2013-12-27 Telefonaktiebolaget Lm Ericsson (Publ) Methods and nodes for enabling and producing input to an application
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103514875A (zh) * 2012-06-29 2014-01-15 联想(北京)有限公司 语音数据的匹配方法和电子设备
WO2014008494A1 (en) 2012-07-04 2014-01-09 Kreft Carlos Communication of position data via text message
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103678404A (zh) * 2012-09-21 2014-03-26 联想(北京)有限公司 一种关键词识别方法及电子设备
JP6068901B2 (ja) * 2012-09-26 2017-01-25 京セラ株式会社 情報端末、音声操作プログラムおよび音声操作方法
US20140114646A1 (en) * 2012-10-24 2014-04-24 Sap Ag Conversation analysis system for solution scoping and positioning
US20140142948A1 (en) * 2012-11-21 2014-05-22 Somya Rathi Systems and methods for in-vehicle context formation
CN103903611B (zh) * 2012-12-24 2018-07-03 联想(北京)有限公司 一种语音信息的识别方法和设备
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10515076B1 (en) * 2013-04-12 2019-12-24 Google Llc Generating query answers from a user's history
US10593326B2 (en) * 2013-04-25 2020-03-17 Sensory, Incorporated System, method, and apparatus for location-based context driven speech recognition
US9626963B2 (en) 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
KR102228455B1 (ko) 2013-08-05 2021-03-16 삼성전자주식회사 대화의 소재를 제공하는 장치, 서버 및 방법
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
WO2015030737A1 (en) * 2013-08-27 2015-03-05 Snap Trends, Inc. Methods and systems of aggregating information based on geographical locations of social network communications via a network
US9477991B2 (en) 2013-08-27 2016-10-25 Snap Trends, Inc. Methods and systems of aggregating information of geographic context regions of social networks based on geographical locations via a network
US9263038B2 (en) * 2013-10-03 2016-02-16 Marchex, Inc. System and method for analyzing and classifying calls without transcription via keyword spotting
US11138971B2 (en) 2013-12-05 2021-10-05 Lenovo (Singapore) Pte. Ltd. Using context to interpret natural language speech recognition commands
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
TWI506458B (zh) 2013-12-24 2015-11-01 Ind Tech Res Inst 辨識網路產生裝置及其方法
US10276154B2 (en) 2014-04-23 2019-04-30 Lenovo (Singapore) Pte. Ltd. Processing natural language user inputs using context data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9786276B2 (en) * 2014-08-25 2017-10-10 Honeywell International Inc. Speech enabled management system
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3414759B1 (en) * 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106168895A (zh) * 2016-07-07 2016-11-30 北京行云时空科技有限公司 用于智能终端的语音控制方法及智能终端
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10540451B2 (en) * 2016-09-28 2020-01-21 International Business Machines Corporation Assisted language learning
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10296586B2 (en) * 2016-12-23 2019-05-21 Soundhound, Inc. Predicting human behavior by machine learning of natural language interpretations
GB2563967A (en) * 2016-12-30 2019-01-02 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR101964514B1 (ko) * 2017-03-23 2019-04-01 이동민 사용자 상태를 고려한 중의적 표현 분석 장치 및 방법
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10810278B2 (en) * 2017-04-18 2020-10-20 Google Llc Contextual deep bookmarking
US20180315414A1 (en) 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20190019516A1 (en) * 2017-07-14 2019-01-17 Ford Global Technologies, Llc Speech recognition user macros for improving vehicle grammars
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10558426B2 (en) * 2017-12-08 2020-02-11 Google Llc Graphical user interface rendering management by voice-driven computing infrastructure
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
KR102592907B1 (ko) * 2018-06-22 2023-10-23 삼성전자주식회사 텍스트 입력 디바이스 및 그 방법
KR102569372B1 (ko) * 2018-06-26 2023-08-22 구글 엘엘씨 디지털 어시스턴트 애플리케이션과 내비게이션 애플리케이션 간의 인터페이싱
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109189365A (zh) * 2018-08-17 2019-01-11 平安普惠企业管理有限公司 一种语音识别方法、存储介质和终端设备
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US10789955B2 (en) * 2018-11-16 2020-09-29 Google Llc Contextual denormalization for automatic speech recognition
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109783681B (zh) * 2019-01-18 2021-03-09 中国农业科学院农业信息研究所 一种农产品价格信息采集及处理装置和方法
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US20220130377A1 (en) * 2020-10-27 2022-04-28 Samsung Electronics Co., Ltd. Electronic device and method for performing voice recognition thereof
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN113113024A (zh) * 2021-04-29 2021-07-13 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN113299287A (zh) * 2021-05-24 2021-08-24 山东新一代信息产业技术研究院有限公司 基于多模态的服务机器人交互方法、***及存储介质
US11688390B2 (en) 2021-05-27 2023-06-27 Honeywell International Inc. Dynamic speech recognition methods and systems with user-configurable performance
KR20230039423A (ko) * 2021-09-14 2023-03-21 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10141974A (ja) * 1996-11-12 1998-05-29 Sony Corp カーナビゲーション装置およびその操作方法
JP2003032388A (ja) * 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2006146262A (ja) * 1997-04-14 2006-06-08 At & T Corp 自動スピーチ認識サービス提供方法及びシステム並びに媒体
JP2006171305A (ja) * 2004-12-15 2006-06-29 Nissan Motor Co Ltd ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5905773A (en) * 1996-03-28 1999-05-18 Northern Telecom Limited Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models
US6202023B1 (en) 1996-08-22 2001-03-13 Go2 Systems, Inc. Internet based geographic location referencing system and method
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6184823B1 (en) * 1998-05-01 2001-02-06 Navigation Technologies Corp. Geographic database architecture for representation of named intersections and complex intersections and methods for formation thereof and use in a navigation application program
US7031925B1 (en) * 1998-06-15 2006-04-18 At&T Corp. Method and apparatus for creating customer specific dynamic grammars
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
AU1115001A (en) 1999-10-22 2001-05-08 Activesky, Inc. An object oriented video system
JP4802434B2 (ja) * 2000-02-28 2011-10-26 ソニー株式会社 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
MXPA02011302A (es) * 2000-05-16 2004-08-12 John Taschereau Metodo y sistema para proporcionar informacion y publicidad dirigidas geograficamente.
US6487495B1 (en) * 2000-06-02 2002-11-26 Navigation Technologies Corporation Navigation applications using related location-referenced keywords
US7376640B1 (en) * 2000-11-14 2008-05-20 At&T Delaware Intellectual Property, Inc. Method and system for searching an information retrieval system according to user-specified location information
US6937986B2 (en) * 2000-12-28 2005-08-30 Comverse, Inc. Automatic dynamic speech recognition vocabulary based on external sources of information
US20020111810A1 (en) * 2001-02-15 2002-08-15 Khan M. Salahuddin Spatially built word list for automatic speech recognition program and method for formation thereof
US20030023440A1 (en) * 2001-03-09 2003-01-30 Chu Wesley A. System, Method and computer program product for presenting large lists over a voice user interface utilizing dynamic segmentation and drill down selection
JP2002318132A (ja) * 2001-04-23 2002-10-31 Hitachi Ltd 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
JP2003032399A (ja) * 2001-07-12 2003-01-31 Fuji Xerox Co Ltd 画像処理装置および給電方法
US6757544B2 (en) * 2001-08-15 2004-06-29 Motorola, Inc. System and method for determining a location relevant to a communication device and/or its associated user
US20030093419A1 (en) * 2001-08-17 2003-05-15 Srinivas Bangalore System and method for querying information using a flexible multi-modal interface
US6813342B1 (en) 2001-10-17 2004-11-02 Bevocal, Inc. Implicit area code determination during voice activated dialing
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
US20030171926A1 (en) * 2002-03-07 2003-09-11 Narasimha Suresh System for information storage, retrieval and voice based content search and methods thereof
US6999930B1 (en) * 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
US20030191639A1 (en) * 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US20050055216A1 (en) * 2003-09-04 2005-03-10 Sbc Knowledge Ventures, L.P. System and method for the automated collection of data for grammar creation
US7752210B2 (en) * 2003-11-13 2010-07-06 Yahoo! Inc. Method of determining geographical location from IP address information
US7584422B2 (en) * 2004-07-12 2009-09-01 Informatica Corporation System and method for data format transformation
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
US20060074660A1 (en) * 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
US20060129533A1 (en) * 2004-12-15 2006-06-15 Xerox Corporation Personalized web search method
CN100358006C (zh) * 2005-04-18 2007-12-26 南京师范大学 地理信息的语音识别方法及其在导航***中的应用
US7672931B2 (en) 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
US20070112739A1 (en) * 2005-07-19 2007-05-17 4Info, Inc. Intelligent mobile search client
JP2007052397A (ja) * 2005-07-21 2007-03-01 Denso Corp 操作装置
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7577665B2 (en) 2005-09-14 2009-08-18 Jumptap, Inc. User characteristic influenced search results
US7860871B2 (en) 2005-09-14 2010-12-28 Jumptap, Inc. User history influenced search results
JP4505821B2 (ja) * 2005-11-21 2010-07-21 株式会社デンソー 車載ナビゲーション装置および検索範囲絞込み施設検索方法
EP2109097B1 (en) * 2005-11-25 2014-03-19 Swisscom AG A method for personalization of a service
US7616964B2 (en) * 2005-12-13 2009-11-10 Yahoo! Inc. System and method for providing geo-relevant information based on a mobile device
KR100725792B1 (ko) * 2006-02-01 2007-06-08 엔에이치엔(주) 개인 웹페이지에서의 지리 정보 제공 방법 및 시스템
US7778837B2 (en) * 2006-05-01 2010-08-17 Microsoft Corporation Demographic based classification for local word wheeling/web search
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US7606715B1 (en) * 2006-05-25 2009-10-20 Rockwell Collins, Inc. Avionics system for providing commands based on aircraft state
US20070280445A1 (en) * 2006-06-05 2007-12-06 Roy Shkedi Method for Interacting Via an Internet Accessible Address-Book Using a Visual Interface Phone Device
US7937402B2 (en) * 2006-07-10 2011-05-03 Nec (China) Co., Ltd. Natural language based location query system, keyword based location query system and a natural language and keyword based location query system
US20080086368A1 (en) * 2006-10-05 2008-04-10 Google Inc. Location Based, Content Targeted Online Advertising
US7890326B2 (en) * 2006-10-13 2011-02-15 Google Inc. Business listing search
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20080222119A1 (en) * 2007-03-08 2008-09-11 Microsoft Corporation Detecting a user's location, local intent and travel intent from search queries
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US7774348B2 (en) * 2007-03-28 2010-08-10 Yahoo, Inc. System for providing geographically relevant content to a search query with local intent
US7788252B2 (en) * 2007-03-28 2010-08-31 Yahoo, Inc. System for determining local intent in a search query
US20080312969A1 (en) 2007-04-20 2008-12-18 Richard Raines System and method for insurance underwriting and rating
US7949936B2 (en) * 2007-04-27 2011-05-24 International Business Machines Corporation Selecting advertising for a web page
US9360337B2 (en) * 2007-06-20 2016-06-07 Golba Llc Navigation system and methods for route navigation
US8060367B2 (en) * 2007-06-26 2011-11-15 Targus Information Corporation Spatially indexed grammar and methods of use
US7983913B2 (en) * 2007-07-31 2011-07-19 Microsoft Corporation Understanding spoken location information based on intersections
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US8473433B2 (en) 2010-11-04 2013-06-25 At&T Intellectual Property I, L.P. Systems and methods to facilitate local searches via location disambiguation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10141974A (ja) * 1996-11-12 1998-05-29 Sony Corp カーナビゲーション装置およびその操作方法
JP2006146262A (ja) * 1997-04-14 2006-06-08 At & T Corp 自動スピーチ認識サービス提供方法及びシステム並びに媒体
JP2003032388A (ja) * 2001-07-12 2003-01-31 Denso Corp 通信端末装置及び処理システム
JP2006171305A (ja) * 2004-12-15 2006-06-29 Nissan Motor Co Ltd ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019527379A (ja) * 2016-07-08 2019-09-26 グーグル エルエルシー フォローアップ音声クエリ予測
JP2020016784A (ja) * 2018-07-26 2020-01-30 Zホールディングス株式会社 認識装置、認識方法及び認識プログラム
JP7034027B2 (ja) 2018-07-26 2022-03-11 ヤフー株式会社 認識装置、認識方法及び認識プログラム
JP2022509880A (ja) * 2018-12-03 2022-01-24 グーグル エルエルシー 音声入力処理
JP7230205B2 (ja) 2018-12-03 2023-02-28 グーグル エルエルシー 音声入力処理
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant
JP2021068167A (ja) * 2019-10-23 2021-04-30 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
JP7029434B2 (ja) 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末

Also Published As

Publication number Publication date
US8527279B2 (en) 2013-09-03
KR20150097816A (ko) 2015-08-26
US20120316878A1 (en) 2012-12-13
US11538459B2 (en) 2022-12-27
US20200043472A1 (en) 2020-02-06
KR20170081745A (ko) 2017-07-12
US20170092267A1 (en) 2017-03-30
US9858921B2 (en) 2018-01-02
CN107331389A (zh) 2017-11-07
EP2260264A2 (en) 2010-12-15
KR101758302B1 (ko) 2017-07-14
US20140195234A1 (en) 2014-07-10
WO2009111721A3 (en) 2010-01-14
CN107331389B (zh) 2021-06-18
WO2009111721A2 (en) 2009-09-11
CN102016502B (zh) 2017-06-09
US8255224B2 (en) 2012-08-28
KR101605147B1 (ko) 2016-04-01
US20230112412A1 (en) 2023-04-13
EP2260264A4 (en) 2015-05-06
KR101881985B1 (ko) 2018-08-24
KR20100126796A (ko) 2010-12-02
CN102016502A (zh) 2011-04-13
KR20180043405A (ko) 2018-04-27
US10510338B2 (en) 2019-12-17
CN113506567A (zh) 2021-10-15
US20090228281A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
US11538459B2 (en) Voice recognition grammar selection based on context
US11748430B2 (en) Automatic routing using search results
JP6063965B2 (ja) 個人情報のジオコーディング
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120306

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130806