JP2019534522A - 単一の装置から複数の仮想パーソナルアシスタント(vpa)へのアクセス - Google Patents

単一の装置から複数の仮想パーソナルアシスタント(vpa)へのアクセス Download PDF

Info

Publication number
JP2019534522A
JP2019534522A JP2019531603A JP2019531603A JP2019534522A JP 2019534522 A JP2019534522 A JP 2019534522A JP 2019531603 A JP2019531603 A JP 2019531603A JP 2019531603 A JP2019531603 A JP 2019531603A JP 2019534522 A JP2019534522 A JP 2019534522A
Authority
JP
Japan
Prior art keywords
service provider
electronic file
vpa service
audio data
vpa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019531603A
Other languages
English (en)
Other versions
JP6886022B2 (ja
Inventor
ナガナゴウダ・ビー・パティル
アンドレ・トッドマン
バニース・エー・クラーマー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of JP2019534522A publication Critical patent/JP2019534522A/ja
Application granted granted Critical
Publication of JP6886022B2 publication Critical patent/JP6886022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)

Abstract

本願に記載の技術は、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示することと、特定のVPAサービスプロバイダを識別するユーザ選択を受信することとを含むコンピュータ実装方法に具現化されうる。方法はまた、入力音声データを表す第1の信号を受信することと、第1の信号を処理し、入力音声データの少なくとも一部を含む第1の電子ファイルを生成することとを含み、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される。方法は、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信することと、入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信することと、第2の電子ファイルに基づき、音響変換器に音響出力を発生させることとをさらに含む。

Description

本開示は、概して、ヘッドホンなどの音響装置を介して音声起動されるサービス及び制御を提供する技術に関する。
音声起動サービス及び制御を提供するためにモバイル装置および演算装置上で様々な仮想パーソナルアシスタント(VPA)(インテリジェント・パーソナルアシスタント(IPA)とも称される))が利用可能である。VPAの例は、Alexa(登録商標)(ワシントン州シアトルのアマゾン社提供)、Google Assistant(登録商標)(カリフォルニア州マウンテンビューのGoogle社提供)、S Voice(登録商標)(韓国スウォン市のサムスン電子社提供)、Voice Mate(登録商標)(韓国ソウル市のLG電子社提供)、及びCortana(登録商標)(ワシントン州レッドモンドのマイクロソフト社提供)を含む。
一態様によれば、本明細書は、第1の装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示するステップと、特定のVPAサービスプロバイダを識別するユーザ選択を受信するステップとを含むコンピュータ実装方法を考慮したものである。方法はまた、第1の装置において、入力音声データを表す第1の信号を受信するステップと、第1の装置の1つ以上のプロセッサを用いて、第1の信号を処理し、入力音声データの少なくとも一部を含む第1の電子ファイルを生成するステップであって、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される、ステップとを含む。方法は、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置へ送信するステップと、第1の電子ファイルに含まれる入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信するステップと、第2の電子ファイルに基づき、音響変換器に音響出力を発生させるステップとをさらに含む。
他の態様では、本明細書はまた、表示装置と、1つ以上の処理装置を備えるコントローラとを含むシステムを考慮したものである。コントローラは、表示装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示し、特定のVPAサービスプロバイダを識別するユーザ選択を受信するよう構成される。コントローラはまた、入力音声データを表す第1の信号を受信し、第1の信号を処理し、入力音声データの少なくとも一部を含む第1の電子ファイルを生成するよう構成される。第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される。コントローラはまた、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置へ送信し、第1の電子ファイルに含まれる入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信し、第2の電子ファイルに基づき、音響変換器に音響出力を発生させるように構成される。
他の態様では、本明細書は、1つ以上のプロセッサに様々な動作を実行させるためのコンピュータ読み取り可能な命令を符号化して有する1つ以上の機械読み取り可能な記憶装置を考慮したものである。動作は、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示する動作と、特定のVPAサービスプロバイダを識別するユーザ選択を受信する動作とを含む。動作はまた、入力音声データを表す第1の信号を受信する動作と、第1の信号を処理し、入力音声データの少なくとも一部を含む第1の電子ファイルを生成する動作とを含む。第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される。動作は、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置に送信する動作と、第1の電子ファイルに含まれる入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信する動作と、第2の電子ファイルに基づき、音響変換器に音響出力を発生させる動作とをさらに含む。
他の態様では、本明細書は、入力音声データを表す第1の信号を受信するステップと、1つ以上の処理装置を用いて、入力音声データ中の1つ以上の単語を検出するために第1の信号を処理するステップと、入力音声データの中で検出された1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択するステップとを含むコンピュータ実装方法を考慮したものである。方法はまた、入力音声データの少なくとも一部を含む第1の電子ファイルを生成するステップであって、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される、ステップと、電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置へ送信するステップとを含む。
他の態様では、本明細書は、メモリと、1つ以上の処理装置を備えるコントローラとを含むシステムを考慮したものである。コントローラは、入力音声データを表す第1の信号を受信し、入力音声データ中の1つ以上の単語を検出するために第1の信号を処理し、入力音声データの中で検出された1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択するよう構成される。コントローラはまた、入力音声データの少なくとも一部を含む第1の電子ファイルを生成し、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成され、電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置へ送信するよう構成される。
他の態様では、本明細書は、1つ以上のプロセッサに様々な動作を実行させるためのコンピュータ読み取り可能な命令を符号化して有する1つ以上の機械読み取り可能な記憶装置を考慮したものである。動作は、入力音声データを表す第1の信号を受信する動作と、入力音声データ中の1つ以上の単語を検出するために第1の信号を処理する動作と、入力音声データの中で検出された1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択する動作とを含む。動作はまた、入力音声データの少なくとも一部を含む第1の電子ファイルを生成する動作であって、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成される、動作と、電子ファイルを、特定のVPAサービスプロバイダに関連付けられた1つ以上の遠隔演算装置へ送信する動作とを含む。
上記の態様の実施は、以下の特徴のうちの1つ以上を含みうる。
1つ以上の遠隔演算装置は、特定のVPAサービスプロバイダのためのクラウドベースのサービスを提供しうる。ユーザインタフェースは、第1の装置のディスプレイ上に提示されうる。特定のVPAサービスプロバイダを識別する前記ユーザ選択を受信する動作に応じて、第2のユーザインタフェースが提示されえ、第2のインタフェースは、特定のVPAサービスプロバイダを使用するための資格情報を受信するよう構成される。資格情報は、特定のVPAサービスプロバイダに対して提供され、資格情報が認証されることに応じて、1つ以上の遠隔演算装置との通信チャネルが確立されうる。入力音声データを表す第1の信号は、第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉されうる。音響装置は、ヘッドセット、イヤホン、携帯型スピーカ、及び補聴器のうちの1つでありうる。リモートコントローラは、音響装置、メディアストリーミング装置、ホームシアターシステム、またはテレビジョンのうちの1つを制御しうる。第1の装置は、モバイル装置でありえ、入力音声データはモバイル装置のマイクロフォンを用いて捕捉されうる。第1の信号を処理することは、入力音声データに含まれる要求が第1の装置において対処可能であると決定することと、第1の装置の1つ以上のプロセッサによって、要求を処理することとを含みうる。要求は、第1の電子ファイルに含まれる入力音声データから除外されうる。要求はクエリを含みうる。
少なくとも第2の電子ファイルは、第1の電子ファイルの送信に応じて受信され、第2の電子ファイルは、第1の電子ファイルに含まれる入力音声データに対する応答を含む。音響変換器は、第2の電子ファイルに基づき、音響出力を発生させられうる。特定のVPAサービスプロバイダを選択することは、1つ以上の単語が特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組を含むことを検出することと、1つ以上の単語が1つ以上のキーワードの組を含むことを検出することに応じて、特定のVPAサービスプロバイダを選択することとを含みうる。特定のVPAサービスプロバイダを選択することは、1つ以上の単語がリスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことを決定することと、1つ以上の単語が前記リスト内のVPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことが決定されたことに応じて、デフォルトVPAサービスプロバイダを前記特定のVPAサービスプロバイダとして選択することとを含みうる。1つ以上の遠隔演算装置は、特定のVPAサービスプロバイダのためのクラウドベースのサービスを提供しうる。入力音声データは、第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉されうる。第1の入力音声データは、モバイル装置のマイクロフォンを用いて捕捉されうる。特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組は、ユーザ定義またはユーザカスタマイズされうる。
本明細書に記載された様々な態様は、以下の利点のうちの1つまたは複数を提供することができる。単一の装置を介して複数のVPAが利用可能とされうるため、ユーザは、異なったタスクに対して好ましいVPAを選択することが可能となる。例えば、ユーザは、道順を聞くために第1のVPAを、オンラインでのショッピングのために第2の異なるVPAを、予約を管理するために別の第3のVPAを選択することができる。装置において受信された音声入力は、音声入力に含まれている要求が装置においてローカルに対処されうるかを決定するために処理されることができ、それに応じて対処されうる。これにより、要求は、要求が装置から遠隔VPAサービスプロバイダへ送信される場合よりも迅速に処理されることとなる。音声入力は、例えば、音声入力中の1つ以上のキーワードの検出に基づいて、適切なVPAサービスプロバイダへ自動的にルーティングされ得る。いくつかの場合には、音声入力は、音声入力の内容に基づいて、適切なVPAサービスプロバイダへルーティングされてもよい。例えば、ユーザが道順を聞いている場合、対応する音声入力は、道順を聞くためのユーザの好みのVPAのプロバイダへルーティングされてもよい。このように、本明細書に記載された技術は、ユーザが単一の装置から複数のVPAを利用することを可能とし、いくつかの場合には、装置との会話による相互作用に関連付けられたユーザエクスペリエンスを改善することを可能とする。
発明の概要に記載されているものを含め、本開示に記載された特徴のうちの2つ以上を、本明細書で具体的に説明しない実施形態となるよう組み合わされることができる。
添付の図面および以下の記載により、1つ以上の態様の詳細について説明する。他の特徴、目的、および利点は、明細書及び図面、並びに特許請求の範囲から明らかになるであろう。
1つ以上の装置が複数のクラウドベースのVPAサービスプロバイダと相互作用することができる例示的な環境を示すブロック図である。 複数のVPAサービスプロバイダと相互作用するように構成された装置を示す例示的なブロック図である。 複数のVPAサービスプロバイダと相互作用するよう音響装置を構成することに関連する例示的なスクリーンショットを示す図である。 複数のVPAサービスプロバイダと相互作用するよう音響装置を構成することに関連する例示的なスクリーンショットを示す図である。 複数のVPAサービスプロバイダと相互作用するよう音響装置を構成することに関連する例示的なスクリーンショットを示す図である。 ユーザにより選択されたVPAサービスプロバイダと相互作用するための例示的なプロセスのフローチャートである。 音声入力の中の1以上の単語の存在の検出に基づいて、複数のVPAサービスプロバイダのうちの1つを選択する例示的なプロセスのフローチャートである。
仮想パーソナルアシスタント(VPA)(インテリジェント・パーソナルアシスタント(IPA)またはナレッジナビゲータとも称されることもある)は、モバイル装置および他の演算装置においてますます使用されるようになっており、例えば、装置とのハンズフリーの相互作用を容易にするために使用される。VPAは、特定の装置(例えば、演算装置またはモバイル装置)上で実行され、対応するVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置(例えば、サーバ)と通信して、ユーザ入力に基づいてタスクを実行し、応答およびサービスを提供するエージェントアプリケーションとして実装されうる。例えば、エージェントアプリケーションは、ユーザ入力(例えば、音声入力)の少なくとも一部を、遠隔のクラウドベースのVPAサービスプロバイダに関連付けられた1つ以上の演算装置(例えば、サーバ)に提供することができ、次にVPAサービスプロバイダは、ユーザ入力の一部を処理して応答を生成する。応答は、特定の装置へ送り返され、次に特定の装置は、応答に基づいて、1つ以上のタスク(例えば、ディスプレイを生成すること及び/又はオーディオファイルを再生すること)を実行する。VPAサービスプロバイダは、応答の生成にあたり、様々な他のソースからの情報(例えば、特定の装置の位置情報、例えば様々なデータベースから入手可能な天気、ニュース、株価等に関する情報、例えば、ユーザアカウントなどから入手可能なユーザの情報およびスケジュール)を使用しうる。
VPAサービスプロバイダは、典型的には、VPAサービスを、対応する特定の装置またはアプリケーションに提供する。例えば、様々なモバイル装置は、装置上で実行される専用VPAアプリケーションを有する。いくつかの場合、VPAサービスプロバイダは、対応するVPAを装置に統合するために使用されうるアプリケーション・プログラミング・インタフェース(API)を提供しうる。いずれにしても、特定の装置からは、1つのVPAのみが利用可能でありうる。しかしながら、複数のVPAサービスプロバイダからの様々なVPAが利用可能となると、ユーザは、VPAの選択肢を活用することに関心を持ちうる。例えば、ユーザは、第1のVPA(例えば、カリフォルニア州Cupertinoのアップル社により提供されるSiri(登録商標))を用いて、車での道順を要求したいことがあり、商品をオンラインで注文するためには、第2のVPA(例えば、ワシントン州シアトルのアマゾン社によって提供されるAlexa(登録商標))のほうを好むことがある。本明細書に記載された技術は、単一の装置から複数の利用可能なVPA(またはVPAサービスプロバイダ)のうちの1つを選択することを可能とする。選択は、例えば、ユーザ入力に1つ以上のキーワードが存在することに基づいて、予め設定されたユーザ設定を介して、または、例えば、ユーザ入力の内容に基づいて自動的に、行うことができる。幾つかの態様では、選択は、ソース装置(例えば、モバイル装置、メディアプレーヤ、またはストリーミング装置)に接続されたヘッドホンまたはイヤホンなどのパーソナル音響装置から行うことができ、ソース装置は、ユーザが、対応するVPAサービスに関連付けられた装置にお金をかけることなく、個人用の音響装置を介して自分の好みのVPAサービスにアクセスできるようにすることができる。いくつかの態様では、本明細書に記載された技術はまた、ユーザが、例えば、異なるクエリおよび要求に関連付けられた好みに基づいて、VPAの選択肢をシームレスに切り替えることを可能にすることができる。個人用の音響装置が、クラウドベースのVPAサービスプロバイダと直接通信するための1つ以上の組込み通信モジュールを有する態様では、ソース装置は必要でない場合がある。
図1は、1つ以上の装置が複数のクラウドベースのVPAサービスプロバイダと相互作用しうる例示的な環境100を示すブロック図である。例示的な環境100において、ヘッドホン102は、例えば、Bluetooth(登録商標)接続またはWi-Fi(登録商標)接続などの無線接続を介してモバイル装置105に接続される。また、特に指定しない限り、ヘッドホンという用語は、本明細書で用いる場合、オーバーイヤー型ヘッドセット、インイヤー型ヘッドセット、イヤホン、イヤバッド、補聴器、または他のワイヤレス対応音響装置といった様々なタイプの個人用の音響装置を含む。スマートウォッチ103、携帯用スピーカ、ドッキング・スピーカ、ホームシアターシステム、ラジオ、ステレオスピーカ、またはフィットネストラッカーといった他の装置もまた、複数のVPAサービスプロバイダ125と通信するために使用されうる。いくつかの態様では、複数のクラウドベースのVPAサービスプロバイダ125と通信しうる装置は、メディア再生装置112を制御するように構成されたリモートコントローラ110を含むこともできる。メディア再生装置112は、例えばメディアストリーミング装置、光ディスクプレーヤ、ホームシアター受信機、またはテレビジョンに接続されうるスピーカ装置を含みうる。本明細書では、モバイル装置105に接続されたヘッドホン102の例を主に用いて技術を説明する。しかしながら、本明細書は、リモートコントローラ110、メディア再生装置112、スマートウォッチ103などの他の装置、または、携帯型スピーカ、ドッキング・スピーカ、ホームシアターシステム、ラジオ、ステレオスピーカ、またはフィットネストラッカーといった他の装置にも適用可能である。例えば、リモートコントローラ110またはスマートウォッチ103は、入力音声データを受信し、これをネットワーク120を通じて直接、または、それぞれ、メディア再生装置112もしくはモバイル装置105等の介在する装置を介して、1つ以上のVPAサービスプロバイダ125へ伝えるように構成されたマイクロフォンを含みうる。
ヘッドホン102および/またはモバイル装置105は、複数のVPAサービスプロバイダ125a、125b、125c(概して125)の各々に関連付けられている1つ以上の演算装置(例えば、サーバ130)と通信するよう構成されうる。例えば、装置102、105、110及び/又は112によって受信される(例えば、ユーザ101の音声に基づく)入力音声データの少なくとも一部は、ネットワーク120を介してVPAサービスプロバイダ125のうちの1つ以上に提供されてもよく、VPAサービスプロバイダ125のうちの1つ以上は、つぎに入力音声データの受信された部分を処理して応答を生成する。入力音声の部分は、特定の宛先VPAサービスプロバイダ125の仕様に従って1つ以上の電子ファイルにパッケージングすることができる。応答を表す情報は、つぎに、ネットワーク120を介してモバイル装置105及び/又はパーソナル音響装置102に送り返される。情報は、つぎに受け取り側の装置で処理されてユーザ101のための出力(例えば、オーディオクリップまたはビデオディスプレイ)を生成する。いくつかの態様では、入力音声データは、第1の音響装置(例えば、スマートウォッチ103)におけるマイクロフォンによって捕捉されえ、出力は第2の音響装置(例えば、ヘッドホン102)へルーティングされうる。
いくつかの態様では、入力音声データは、ヘッドホン102のマイクロフォン104を介して捕捉されうる。いくつかの態様では、マイクロフォン104は、ヘッドホンの筐体に支持されていてもよい(また、例えば、ヘッドホン内のアクティブノイズ低減回路に関連付けられるフィードバックまたはフィードフォワードマイクロフォンであってもよい)。入力音声データはまた、モバイル装置105またはスマートウォッチ103といった他の装置のマイクロフォンによって捕捉されうる。いくつかの態様では、ヘッドホン102は、VPAサービスプロバイダ125を対象とした音声入力データを捕捉するためにマイクロフォン104をトリガするように作動され得るVPAアクセスボタンを含むことができる。いくつかの態様では、マイクロフォン104は、好ましいVPAサービスプロバイダを示す1つ以上のキーワードを常に聴き取ろうとするよう構成されうる。例えば、VPAサービスプロバイダA 125aに関連付けられたキーワードが"Hello, there"であり、マイクロフォン104により検出される場合、検出されたキーワードに続く語句は、VPAサービス提供者A 125aを対象とする入力音声データとして捕捉される。同様に、VPAサービスプロバイダB 125bに関連付けられたキーワードが"Tell Me"であり、マイクロフォン104によって検出される場合、検出されたキーワードに続く語句は、VPAサービス提供者A 125bを対象とする入力音声データとして捕捉される。いくつかの態様では、これらのキーワードは、VPAサービスプロバイダによって決められる。
いくつかの態様では、ユーザは、特定のVPAサービスプロバイダに関連付けられるキーワードおよび/または句をカスタマイズすることができる。例えば、ユーザがVPAサービスプロバイダAを道順に使用することに関心がある場合、ユーザは、入力音声データがVPAサービスプロバイダAを対象とするものであることを示すカスタマイズされたキーワード及び/又は句(例えば、「道順を教えて」又は「道順」)を認識するよう、パーソナル音響装置102を設定することができる。同様に、ユーザが、オンラインでショッピングするためにVPAサービスプロバイダBを使用することに関心がある場合、ユーザは、入力音声データがVPAサービスプロバイダBを対象とするものであることを示すカスタマイズされたキーワードおよび/または句(例えば、「ショッピングしたい」または「ショッピング」)を認識するように、パーソナル音響装置102を設定することができる。ユーザは、これらのカスタマイズされたキーワードおよび/または句を、音声及び/又は視覚ユーザインタフェース(例えば、以下に説明する図3A乃至図3Cに示すインタフェース)を介して設定しうる。入力された音声データは、つぎに、処理と、それに続く宛先VPAサービスプロバイダ125への送信のためのパッケージングのために接続されたモバイル装置に提供されうる。これは、例えば、モバイル装置105および/またはパーソナル音響装置上で実行されるアプリケーションプログラムを使用して行うことができる。いくつかの態様では、入力音声データを捕捉するようマイクロフォン104がいったんトリガされると、ヘッドホン102は、モバイル装置105との接続(例えば、無線接続)を確立し、マイクロフォンで捕捉されたデータをモバイル装置105上で実行されているアプリケーションプログラムに対してストリーミングし始めてもよい。いくつかの態様では、マイクロフォン104がトリガされたとき、アプリケーションはモバイル装置上で既に実行されていてもよい。アプリケーションがまだ実行されていない場合には、マイクロフォン104をトリガすることにより、アプリケーションを起動させることができる。いくつかの態様では、マイクロフォン104がトリガされた時にアプリケーションを起動することは、アプリケーションを起動する許可を示す(例えば、移動装置105を介した)ユーザ入力を必要としてもよい。
アプリケーションプログラムは、マイクロフォン104からの入来データを、例えば、音声中の間隔(発声された入力の終了を表してもよい)が検出されるまで、実質的に連続的に記録するように構成されうる。アプリケーションは、つぎに、ユーザによって選択または指示された宛先VPAサービスプロバイダの仕様に従って、記録されたオーディオの少なくとも一部を1つ以上の電子ファイルにパッケージングするように構成されうる。例えば、VPAサービスプロバイダA 125a用の指定ファイルフォーマットは、.wavであってもよく、VPAサービスプロバイダ125bおよび125c用の指定ファイルフォーマットは、それぞれ、.mpgおよび.txtである。この例では、アプリケーションは、宛先VPAサービスプロバイダが125aであるか、または125bであるかによって、入力音声の部分をそれぞれ.wavファイルまたは.mpgファイルへパッケージングするように構成されうる。宛先VPAサービスプロバイダが125cである場合、アプリケーションは、VPAサービスプロバイダC 125cの仕様により、音声認識を実行し、認識された音声の部分を.txtファイルに含めるように構成されうる。
いくつかの態様では、ヘッドホン102は、音声入力の少なくとも一部を宛先VPAサービスプロバイダ125へ直接通信することができる。例えば、ヘッドホン102が無線利用可能(例えば、IPアドレスを有するWi-Fi(登録商標)対応装置)である場合、ヘッドホン102は、音声入力の一部を、ネットワーク120を介して宛先VPAサービスプロバイダ125へ直接送信しうる。同様に、リモートコントローラ110が無線利用可能である場合、リモートコントローラ110は、ネットワーク120を介してVPAサービスプロバイダ125と(例えば、対応するメディア再生装置112をバイパスして)直接通信してもよい。そのような場合、ヘッドホン102(またはリモートコントローラ110)の1つ以上の処理装置(例えば、マイクロプロセッサ、マイクロコントローラまたはデジタル信号プロセッサ)は、宛先VPAサービスプロバイダ125の仕様に従って入力音声データを処理するアプリケーションプログラムを実行するように構成されうる。
図2は、複数のVPAサービスプロバイダと相互作用するように構成された装置200の例示的なブロック図である。装置200の例は、ヘッドホン102、スマートウォッチ103、モバイル装置105、またはリモートコントローラ110を含みうる。いくつかの態様では、装置200は、入力音声を捕捉するための1つ以上のマイクロフォン205と、例えば入力音声データに対する応答に基づいて音響出力を発生するための1つ以上の音響変換器(例えば、スピーカ)とを含む。いくつかの態様では、装置200は、例えば、複数のVPAサービスプロバイダのうちの1つにアクセスすることに関連づけられる1つ以上のユーザインタフェースを提示するように構成された表示装置207を含む。例えば、表示装置207は、複数のVPAサービスプロバイダのユーザ選択可能なメニューを含むユーザインタフェースを提示するように構成されうる。いくつかの態様では、表示装置207はまた、特定のVPAサービスプロバイダを使用するための資格情報(例えば、ユーザ名とパスワードの対)を受け取るためのユーザインタフェースを提示するように構成されうる。例えば、装置200がモバイル装置(またはディスプレイを含む他の装置)に(例えば、無線接続を介して)つながれている態様では、装置200は、表示装置207を含んでいなくてもよい。例えば、ディスプレイのためのスペースが限られているインイヤーヘッドホンといったいくつかの態様では、1つ以上の音響変換器は、ユーザに音声プロンプトを提供するために使用されえ、これは複数のVPAサービスプロバイダを構成するためのユーザインタフェースとして機能しうる。いくつかの態様では、マイクロフォン205および/または音響変換器210は、別個の装置内に配置されうる。例えば、装置200がモバイル装置である場合、マイクロフォン205および/または音響変換器210は、モバイル装置に接続された別の装置(例えば、ヘッドホン)に配置することができる。
マイクロフォン205によって捕捉される(または他の装置から受信される)入力音声データは、様々な方法で、装置200によって処理されうる。いくつかの態様では、入力音声データの少なくとも一部は、入力音声データに含まれる1つ以上の要求又はクエリに対処するよう、装置200においてローカルに処理されうる。例えば、入力音声データの一部が、プロダクトベースの情報を要求するか、または装置200に関する制御を要求する場合、入力音声データの一部は、装置200または接続された装置においてローカルに処理および/または対処されうる。いくつかの態様では、装置200は、音響装置(例えば、ヘッドセット)が接続されるモバイル装置であってもよい。そのような場合、ヘッドセットのマイクロフォンを介して受信された入力音声データは、モバイル装置において(例えば、モバイル装置上で実行されるアプリケーションを使用して)解析されてもよく、入力音声データの少なくとも一部は、例えば、音響装置に関する情報を制御及び/又は提供するためにモバイル装置においてローカルに対処/処理されうる。そのようなプロダクトベースの情報および制御の例は、音響装置の電池レベルに関するクエリや、音響装置の音量レベルまたは他の再生制御パラメータを変更するための命令を含む。他の例では、入力音声データの一部は、アプリケーションのエコシステムに関する情報及び/又は制御を要求してもよい。そのような情報および制御の例は、接続されたモバイル装置(または、例えば、装置200がアプリケーションを実行することが可能である場合は、装置200自体)上で、いずれのアプリケーションが現在実行されているかについてのクエリ、モバイル装置のバッテリ電力残量についてのクエリ、またはモバイル装置で特定のタスク(例えば、特定のアプリケーションを起動し、または特定の情報を提供する)を実行する要求を含む。そのような場合、入力音声データの一部は、ローカルに、例えば、装置200自体において、または、(例えば装置200がヘッドセット等の音響装置である場合)装置200に接続されたモバイル装置において処理および/または対処されてもよい。
いくつかの態様では、入力音声データの少なくとも部分のそのようなローカルな処理は、遠隔演算システム(例えば、クラウドベースのVPAサービスプロバイダに関連付けられる1つ以上の演算装置)へ送信されるデータの量、及び/又は要求の対応する部分に対処するのに必要な時間を減少させうる。例えば、装置200の残りの電池寿命に関する情報は、ローカルに入手可能であり、VPAサービスプロバイダに情報を送信し、VPAサービスプロバイダから受信した応答に基づいて出力を生成する必要なく、ユーザに提供することができる。いくつかの場合には、そのようなローカルな処理は、ユーザに情報を提供する際の待ち時間を減少させることができ、それによって、全体的なユーザエクスペリエンスを向上させる潜在的な可能性がある。
いくつかの態様では、入力音声データの一部がローカルに処理および/または対処されてもよい場合、その部分はVPAサービスプロバイダに送信される情報から除外されてもよい。いくつかの態様では、入力音声データの一部がローカルに対処可能である場合であっても、その部分は、VPAサービスプロバイダに送信される情報から除外されない。そのような場合、VPAサービスプロバイダによって生成された応答が、ローカルに生成された応答の前に受信されると、前者は、ユーザに対応する出力を提供するために使用されうる。このような冗長性は、例えば、VPAサービスプロバイダから利用可能な優れた処理能力を活用するにあたって(またはローカルに利用可能な適切な処理電力の不足を補償するにあたって)、および、応答が可能な限り迅速にユーザに提供されることを確実にするために有用であり得る。
入力音声データの一部が、ローカルに入手可能でない情報および/または制御を要求する場合、入力音声データの一部は、選択されたVPAサービスプロバイダに処理のために送信される1つ以上の電子ファイルを生成する際に使用される。そのような情報及び/又は制御の例は、遠隔データベースで利用可能な情報(例えば、天候情報、「エッフェル塔の高さは?」、「次の30B系統のバスが南駅に到着する時刻は?」)、またはサードパーティーのサービスプロバイダの演算装置との通信を必要としうる命令(例えば、「外の自分の明かりを点ける」、もしくは、「寝室の温度調整を午後6時30分に75度に設定する」)を含みうる。このような場合、装置200は、入力音声データを処理し、選択されたVPAサービスプロバイダの仕様に応じて、入力音声データの少なくとも一部に基づいて、1つ以上の電子ファイルを生成する。
装置200は、入力音声データを処理し、例えば、入力音声データの少なくとも一部がローカルに処理されてもよいかを決定し、これに従って選択されたVPAサービスプロバイダへ送信されるべき1つ以上の電子ファイルを生成するコントローラ212を含む。コントローラ212は、コントローラ212の様々なモジュールを実装するために使用されうる1つ以上の処理装置(例えば、1つ以上のマイクロプロセッサ、マイクロコントローラ、またはデジタル信号プロセッサ)を含みうる。いくつかの態様では、コントローラは、1つ以上のモジュールを実装するために装置200上でアプリケーションを実行することができる。いくつかの態様では、コントローラ212は、入力音声データの内容を決定するために入力音声データを処理する音声認識エンジン215を含む。音声認識エンジンの出力は、例えば、入力音声データ内の要求を処理するために、複数のVPAサービスプロバイダのうちのいずれがユーザによって選択されたかを決定するために使用されうる。例えば、音声認識エンジン215の出力は、VPAサービスプロバイダのユーザの選択を示す1つ以上のキーワードを監視するために分析されうる。そのようなキーワードが検出された場合、入力音声データの少なくとも部分は、選択されたVPAサービスプロバイダへのルーティングのために用意される。一方、キーワードが検出されなかった場合には、入力音声データの関連する部分は、デフォルトVPAサービスプロバイダ(やはりユーザにより予め選択されていてもよい)にルーティングされてもよい。
コントローラ212はまた、選択されたVPAサービスプロバイダへ送信される入力音声データの部分に基づいてデータパケットを生成するパケットジェネレータ225を含みうる。例えば、コントローラが、入力音声データの一部が装置においてローカルに対処され得ると決定した場合、パケットジェネレータ225は、選択されたVPAサービスプロバイダのために準備されたデータパケットから関連する部分を省くように構成されうる。いくつかの態様では、そのような部分は、部分が装置200においてローカルに対処可能であっても、データパケットに依然として含まれてもよい。
コントローラ212は、選択されたVPAの仕様に従って選択されたVPAへ送信されるべき情報をフォーマットするVPA専用ハンドラ230をさらに含む。例えば、特定のVPAサービスプロバイダが、.wavファイルの形で入力を要求する場合、VPA専用ハンドラ230は、そのようなwaveファイルを、例えば、特定のVPAサービスプロバイダへ送信されるべきと決定された入力音声データの部分に基づいて生成するように構成されうる。別の例では、選択されたVPAサービスプロバイダが、.txtファイルの形で入力を要求する場合、VPA専用ハンドラ230は、選択されたVPAサービスプロバイダのためにそのようなファイルを作成するときに、音声認識エンジンと協調しうる。
コントローラ212は、入力音声データの一部のローカル処理及び/又は入力音声データの一部を遠隔VPAサービスプロバイダへ送信することに応じて、入力音声データに含まれる要求、クエリなどに対する応答を表す1つ以上の電子ファイルを受信することができる。いくつかの態様では、受信された電子ファイルは、音響変換器に音響出力を発生させるために使用されうる。いくつかの態様では、これは、(ローカルに生成された、あるいは遠隔VPAサービスプロバイダから受信された)応答を含む1つ以上の電子ファイルに基づいて明瞭なオーディオを生成するように構成されたテキスト読み上げ(TTS)エンジン220によって容易にされうる。いくつかの態様では、受信された電子ファイルは、装置200に関連付けられたディスプレイ、または装置200に接続されたモバイル装置に、出力を生じさせるために使用されうる。
図3A乃至図3Cは、複数のVPAサービスプロバイダと相互作用するために音響装置を設定することに関連付けられる例示的なスクリーンショットを示す。これらの図に示されるスクリーンショットは、例えば、図2を参照して説明した表示装置207上に提示され得る。特に、図3Aは、複数のVPAサービスプロバイダのユーザ選択可能なメニューを含むユーザインタフェース305を示す。ユーザインタフェース305は、例えば、デフォルトVPAサービスプロバイダ(例えば、ユーザが、話された入力においてVPAサービスプロバイダを指定しない場合に使用するもの)を設定するために、または、すべての要求およびクエリに使用されるべきVPAサービスプロバイダを指定するために使用されうる。いくつかの態様では、ユーザインタフェース305は、ユーザ選択可能なメニューに含まれる種々のVPAサービスプロバイダを設定するためにも使用されうる。
いくつかの態様では、ユーザインタフェース305を介して特定のVPAサービスプロバイダのユーザ選択を受信することに応じて、特定のVPAサービスプロバイダを使用するための資格情報を受信するために、表示装置上に第2のユーザインタフェース310が(図3Bに示すように)提示される。例えば、ユーザ選択がVPAサービスプロバイダとしてVPA2の選択を示す場合、第2のユーザインタフェース310は、VPA2を使用するために設定されたアカウントに関連付けられる資格情報(例えば、電子メール/ユーザ名とパスワードの対)を受け付けるための1つ以上のテキストボックスを表示してもよい。ユーザから資格情報を受け付けると、資格情報は、認証のために対応するVPAサービスプロバイダに提供されてもよく、資格情報が認証されると、対応するVPAサービスプロバイダに関連付けられた1つ以上の演算装置との通信チャネルが確立される。
いくつかの態様では、資格情報が認証されると、音声入力を受け付けるための第3のユーザインタフェース315が(図3Cに示すように)提示される。図3A乃至図3Cの例は、1つ以上のVPAサービスプロバイダを設定するための視覚ユーザインタフェースを示しているが、他の態様では、ユーザは、個人用の装置(例えば、図2を参照して説明した装置200)の音声ユーザインタフェースおよび/または、手動で操作可能な制御を介して、VPAサービスプロバイダへの接続を設定し、確立することができる。
図4は、ユーザ選択されたVPAサービスプロバイダと相互作用するための例示的なプロセスのフローチャートを示す。いくつかの態様では、プロセス400の少なくとも一部は、上述した装置200のような装置上で実行されうる。例えば、プロセス400は、少なくとも部分的に、モバイル装置、ヘッドホン、リモートコントローラまたはスマートウォッチ上で実行されてもよい。いくつかの態様では、プロセス400の実行は、少なくとも部分的に、モバイル装置上で実行するアプリケーションによって容易にされうる。
プロセス400の動作は、第1の装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示すること(410)を含む。ユーザインタフェースは、例えば、第1の装置の表示装置に提示されることができる。第1の装置は、例えば、モバイル装置、ヘッドホン、スマートウォッチ、またはリモートコントローラであってもよい。いくつかの態様では、第1のインタフェースは、図3Aに示すユーザインタフェース305と実質的に類似しうる。プロセス400の動作はまた、特定のVPAサービスプロバイダを識別するユーザ選択を受信すること(420)を含む。ユーザ選択は、ユーザインタフェース305といったユーザインタフェースを介して、または話された入力として受信することができる。
プロセス400の動作はまた、第1の装置において、入力音声データを表す第1の信号を受信すること(430)を含む。いくつかの態様では、入力音声データを表す第1の信号は、音響装置(例えば、ヘッドホン、ヘッドセット、イヤホン、携帯型スピーカ、または補聴器)のマイクロフォン、またはスマートウォッチを用いて捕捉されうる。入力音声データはまた、例えば、音響装置、メディアストリーミング装置、ホームシアターシステム、またはテレビジョンを制御するリモートコントローラのマイクロフォンを用いて捕捉されうる。いくつかの態様では、入力音声データは、スマートフォン、タブレットコンピュータ、もしくは電子リーダといったモバイル装置、またはラップトップコンピュータもしくはデスクトップコンピュータのような他の演算装置のマイクロフォンを使用して捕捉されてもよい。
プロセス400の動作は、第1の装置の1つ以上のプロセッサを使用して、第1の信号を処理し、入力音声データの少なくとも一部を含む第1の電子ファイルを生成し、第1の電子ファイルは特定のVPAサービスプロバイダの仕様に従って生成されること(440)をさらに含む。いくつかの態様では、第1の信号を処理することは、入力音声データに含まれる要求が第1の装置でローカルに対処可能であることを決定すること、および、第1の装置の1つ以上のプロセッサによって要求を処理することを含みうる。いくつかの態様では、ローカルに対処可能な要求は、第1の電子ファイルに含まれる入力音声データから除外されてもよい。第1の電子ファイルは、例えば、図1および図2を参照して上述したように、特定のVPAサービスの仕様に従って生成されうる。
プロセス400の動作はまた、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信すること(450)と、第1の電子ファイルに含まれる入力音声データに対する応答を含む第2の電子ファイルを受信することと(460)を含む。1つ以上の遠隔演算装置は、特定のVPAサービスプロバイダに対してクラウドベースのサービスを提供するものでありうる。動作は、音響変換器に、第2の電子ファイルに基づき、音響出力を発生させること(470)をさらに含む。プロセス400がモバイル装置上で実行されており、音響変換器がヘッドホンにある場合、このことは、ヘッドホンの音響変換器(例えば、スピーカ)が、応答の可聴バージョンを再生するために使用することができるよう、モバイル装置から受信された応答を表すものをヘッドホンに送信することを含むことができる。
図5は、音声入力中の1以上の単語の存在を検出することに基づいて、複数のVPAサービスプロバイダのうちの1つを選択するための例示的なプロセス500を示すフローチャートである。いくつかの態様では、プロセス500の少なくとも一部は、上述の装置200といった装置上で実行されうる。例えば、プロセス500は、少なくとも部分的に、モバイル装置、ヘッドホン、リモートコントローラ、またはスマートウォッチ上で実行され得る。いくつかの態様では、プロセス500の実行は、少なくとも部分的に、モバイル装置上で実行されるアプリケーションによって容易にされうる。
プロセス500の動作は、入力音声データを表す第1の信号を受信すること(510)を含む。いくつかの態様では、入力音声データを表す第1の信号は、音響装置(例えば、ヘッドホン、ヘッドセット、イヤホン、携帯型スピーカ、または補聴器)、またはスマートウォッチのマイクロフォンを用いて捕捉されうる。入力音声データはまた、例えば、音響装置、メディアストリーミング装置、ホームシアターシステム、又はテレビジョンを制御するリモートコントローラのマイクロフォンを使用して捕捉されうる。いくつかの態様では、入力音声データはまた、スマートフォン、タブレットコンピュータ、または電子リーダといったモバイル装置、またはラップトップコンピュータもしくはデスクトップコンピュータといった他の演算装置のマイクロフォンを使用して捕捉されうる。
プロセス500の動作はまた、入力音声データ中の1つ以上の単語を検出するために第1の信号を処理すること(520)を含む。1つ以上の単語は、様々なVPAサービスプロバイダに関連するキーワードでありうる。例えば、キーワードは、特定のVPAサービスプロバイダによって、そのVPAサービスプロバイダをトリガするために予め定められた単語であってもよく、または、キーワードは、ユーザが特定のVPAサービスプロバイダに関連付けられるようにカスタマイズした単語であってもよい。いくつかの態様では、このことは、例えば、図2を参照して上述したコントローラ212の音声認識エンジン215を使用して実行され得る。
プロセス500の動作は、入力音声データの中で検出された1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択すること(530)をさらに含む。例えば、装置200のコントローラ212は、1つ以上の単語が特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組を含むことを検出し、応答として、入力音声データの少なくとも一部を対処/ルーティングするために特定のVPAサービスプロバイダを選択するよう構成されうる。いくつかの態様では、入力音声データが、VPAサービスプロバイダのいずれかに関連付けられたキーワードを含まない場合、入力音声データの少なくとも一部に対処するようデフォルトVPAサービスプロバイダが選択されてもよい。
プロセス500の動作は、入力音声データの少なくとも一部を含む第1の電子ファイルを生成することをさらに含み、第1の電子ファイルは、特定のVPAサービスプロバイダの仕様に従って生成される(540)。いくつかの態様では、これは、入力音声データに含まれる要求は、プロセス500を実行する装置上でローカルに対処可能であると決定し、装置の1つ以上のプロセッサによって要求を処理することを含みうる。いくつかの態様では、ローカルに対処可能な要求は、第1の電子ファイルに含まれる入力音声データから除外されてもよい。第1の電子ファイルは、例えば、図1および図2を参照して上述したように、特定のVPAサービスの仕様に従って生成されうる。
プロセス500の動作はまた、第1の電子ファイルを、特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信すること(550)を含む。1つ以上の遠隔演算装置は、特定のVPAサービスプロバイダに対してクラウドベースのサービスを提供するものであってもよい。第1の電子ファイルは、1つ以上の遠隔演算装置との確立された通信チャネルを介して送信されてもよい。そのようなチャネルがまだ確立されていない場合、特定のVPAサービスプロバイダを使用するための資格情報は、(例えば、記憶場所から、または図3Bに示すようなユーザインタフェースを介してユーザから)取得され、特定のVPAサービスプロバイダに提供されうる。次に、資格情報がVPAサービスプロバイダによって認証されることに応じて、通信チャネルが確立されうる。
第1の電子ファイルをVPAサービスプロバイダへ送信することに応じて、遠隔演算装置から1つ以上の電子ファイルが受信されてもよく、このようなファイルは、第1の電子ファイルに含まれる入力音声データに対する応答を含む。つぎに、音響変換器を介して、少なくとも部分的に、第2の電子ファイルに基づき、音響出力が発生されうる。
本明細書に記載された機能、またはその部分、およびその様々な変更(以下、「機能」という)は、例えばプログラマブルプロセッサ、コンピュータ、複数のコンピュータ、および/またはプログラマブルロジックコンポーネントといった1つ以上のデータ処理装置による実行のために、またはその動作を制御するために、例えば、1つ以上の非一時的な機械読み取り可能な媒体または記憶装置のような情報担体に実体的に具現化されたコンピュータプログラムといったコンピュータプログラム製品を介して、少なくとも部分的に実施されうる。
コンピュータプログラムは、コンパイルされるまたは解釈される言語を含む任意の形式のプログラミング言語で書かれることができ、スタンドアロンプログラムとして、またはコンピューティング環境での使用に適したモジュール、コンポーネント、サブルーチン、または他のユニットを含みうる任意の形で展開されうる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトでの、または複数のサイトに分散されてネットワークによって相互接続される複数のコンピュータ上で実行されるように展開されうる。
機能の全てまたは一部を実施することに関連する動作は、較正プロセスの機能を実行するために、1つ以上のコンピュータプログラムを実行する1つ以上のプログラマブルプロセッサによって実行されうる。機能の全部または一部は、専用ロジック回路、例えば、FPGA及び/又はASIC(特定用途向け集積回路)として実施されうる。
いくつかの態様では、機能の少なくとも一部は、アナログ ディヴァイスィズ社によって開発されたSuper Harvard Architecture Single-Chip Computer(SHARC)といった浮動小数点または固定小数点デジタル信号プロセッサ(DSP)上で実行されてもよい。
コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方と、任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサとを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受け取る。コンピュータのコンポーネントは、命令を実行するためのプロセッサと、命令およびデータを格納するための1つ以上のメモリ装置とを含む。
本明細書に特に記載されていない他の実施形態および用途も、添付の請求項の範囲内に含まれる。例えば、本明細書に記載の技術は、入力音声データの内容に基づくVPAサービスプロバイダの自動選択のために使用されうる。例えば、機械学習プロセスは、ユーザが通常は、車での道順を聞くために第1のVPAサービスプロバイダを使用し、オンラインショッピングのために第2のVPAサービスプロバイダを使用すると決定するために使用されうる。したがって、入力音声データがショッピング要求を含むと決定された場合、ユーザが第2VPAのためのキーワードを明示的に指定していない場合であっても、要求が自動的に第2のVPAへルーティングされうる。いくつかの実施形態では、ユーザは、例えばユーザインタフェースを介して、異なる種類の要求に対して異なるVPAサービスプロバイダを指定することができ、このような好みは、異なるVPAサービスプロバイダへの入力音声データの自動ルーティングのために使用されうる。機械学習プロセスは、特定のVPAサービスプロバイダが選択されたことに応じて、ユーザ入力に基づいて更新および改善することができる。例えば、ユーザが、ユーザインタフェースを介して、処理されている特定の要求に対して異なるVPAサービスプロバイダが選択されているべきであったと示すと、機械学習プロセスは、将来の要求を処理する際にこの情報を考慮に入れることができる。
本明細書に記載された異なる態様の要素は、特に上述されていない他の実施形態を形成するために組み合わされてもよい。要素は、本明細書に記載された構造から、その動作に悪影響を及ぼすことなく、省くことができる。さらに、本明細書で説明した機能を実行するために、様々な別個の要素を1つ以上の個々の要素に結合してもよい。
100 環境
101 ユーザ
102 ヘッドホン
103 スマートウォッチ
104 マイクロフォン
105 モバイル装置
110 リモートコントローラ
112 メディア再生装置
120 ネットワーク
125a,125b,125c VPAサービスプロバイダ

Claims (56)

  1. 第1の装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示するステップと、
    特定のVPAサービスプロバイダを識別するユーザ選択を受信するステップと、
    前記第1の装置において、入力音声データを表す第1の信号を受信するステップと、
    前記第1の装置の1つ以上のプロセッサを用いて、前記第1の信号を処理し、前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成するステップであって、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成される、ステップと、
    前記第1の電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信するステップと、
    前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信するステップと、
    前記第2の電子ファイルに基づき、音響変換器に音響出力を発生させるステップと
    を含む、コンピュータ実装方法。
  2. 前記1つ以上の遠隔演算装置は、前記特定のVPAサービスプロバイダのためのクラウドベースのサービスを提供する、請求項1に記載の方法。
  3. 前記ユーザインタフェースは、前記第1の装置のディスプレイ上に提示される、請求項1に記載の方法。
  4. 前記特定のVPAサービスプロバイダを識別する前記ユーザ選択を受信することに応じて、前記特定のVPAサービスプロバイダを使用するための資格情報を受信するための第2のユーザインタフェースを提示するステップと、
    前記特定のVPAサービスプロバイダに対して前記資格情報を提供するステップと、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立するステップと、
    をさらに含む、請求項1に記載の方法。
  5. 前記入力音声データを表す第1の信号は、前記第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、請求項1に記載の方法。
  6. 前記入力音声データは、前記音響装置の前記マイクロフォンを用いて捕捉され、前記音響装置は、ヘッドセット、イヤホン、携帯型スピーカ、及び補聴器のうちの1つである、請求項5に記載の方法。
  7. 前記入力音声データは、前記リモートコントローラの前記マイクロフォンを用いて捕捉され、前記リモートコントローラは、音響装置、メディアストリーミング装置、ホームシアターシステム、またはテレビジョンのうちの1つを制御する、請求項5に記載の方法。
  8. 前記第1の装置は、モバイル装置であり、前記入力音声データを表す第1の信号は前記モバイル装置のマイクロフォンを用いて捕捉される、請求項1に記載の方法。
  9. 前記第1の信号を処理することは、
    前記入力音声データに含まれる要求が前記第1の装置において対処可能であると決定することと、
    前記第1の装置の前記1つ以上のプロセッサによって、前記要求を処理することと、
    を含む、請求項1に記載の方法。
  10. 前記第1の電子ファイルに含まれる前記入力音声データから前記要求を除外するステップをさらに含む、請求項9に記載の方法。
  11. 前記要求はクエリを含む、請求項9に記載の方法。
  12. 入力音声データを表す第1の信号を受信するステップと、
    1つ以上の処理装置を用いて、前記入力音声データ中の1つ以上の単語を検出するために前記第1の信号を処理するステップと、
    前記入力音声データの中で検出された前記1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択するステップと、
    前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成するステップであって、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成される、ステップと、
    前記電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信するステップと、
    を含む、コンピュータ実装方法。
  13. 前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信するステップと、
    前記第2の電子ファイルに基づき、音響変換器に音響出力を発生させるステップと、
    をさらに含む、請求項12に記載の方法。
  14. 前記特定のVPAサービスプロバイダを選択するステップは、
    前記1つ以上の単語が、前記特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組を含むことを検出するステップと、
    前記1つ以上の単語が、前記1つ以上のキーワードの組を含むことを検出することに応じて、前記特定のVPAサービスプロバイダを選択するステップと、
    を含む、請求項12に記載の方法。
  15. 前記特定のVPAサービスプロバイダを選択するステップは、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことを決定するステップと、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことが決定されたことに応じて、デフォルトVPAサービスプロバイダを前記特定のVPAサービスプロバイダとして選択するステップと、
    を含む、請求項12に記載の方法。
  16. 前記1つ以上の遠隔演算装置は、前記特定のVPAサービスプロバイダのためのクラウドベースのサービスを提供する、請求項12に記載の方法。
  17. 前記入力音声データを表す第1の信号は、前記第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、請求項12に記載の方法。
  18. 前記特定のVPAサービスプロバイダを使用するための資格情報を取得するステップと、
    前記資格情報を前記特定のVPAサービスプロバイダに提供するステップと、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立するステップと、
    をさらに含む、請求項12に記載の方法。
  19. 前記入力音声データを表す第1の信号は、モバイル装置のマイクロフォンを用いて捕捉される、請求項12に記載の方法。
  20. 前記特定のVPAサービスプロバイダに関連付けられた前記1つ以上のキーワードの組は、ユーザカスタマイズされる、請求項12に記載の方法。
  21. 表示装置と、
    1つ以上の処理装置を備えるコントローラと、
    を含むシステムであって、
    前記コントローラは、
    前記表示装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示し、
    特定のVPAサービスプロバイダを識別するユーザ選択を受信し、
    入力音声データを表す第1の信号を受信し、
    前記第1の信号を処理し、前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成し、
    前記第1の電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信し、
    前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信し、
    前記第2の電子ファイルに基づき、音響変換器に音響出力を発生させる
    ように構成され、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成されるシステム。
  22. 前記コントローラは、
    前記特定のVPAサービスプロバイダを識別する前記ユーザ選択を受信することに応じて、前記特定のVPAサービスプロバイダを使用するための資格情報を受信するための第2のユーザインタフェースを提示し、
    前記特定のVPAサービスプロバイダに対して前記資格情報を提供し、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立する、
    ようにさらに構成される、請求項21に記載のシステム。
  23. 前記入力音声データを表す第1の信号は、音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、請求項21に記載のシステム。
  24. 前記入力音声データは、前記音響装置の前記マイクロフォンを用いて捕捉され、前記音響装置は、ヘッドセット、イヤホン、携帯型スピーカ、及び補聴器のうちの1つである、請求項23に記載のシステム。
  25. 前記入力音声データは、前記リモートコントローラの前記マイクロフォンを用いて捕捉され、前記リモートコントローラは、音響装置、メディアストリーミング装置、ホームシアターシステム、またはテレビジョンのうちの1つを制御する、請求項23に記載のシステム。
  26. 前記入力音声データは、モバイル装置のマイクロフォンを用いて捕捉される、請求項21に記載のシステム。
  27. 前記コントローラは、
    前記入力音声データに含まれる要求が前記コントローラによって対処可能であることの決定を行い、
    前記決定を行うことに応じて、前記要求に対処する、
    ように構成される、請求項21に記載のシステム。
  28. 前記コントローラは、前記第1の電子ファイルに含まれる前記入力音声データから前記要求を除外するよう構成される、
    請求項27に記載のシステム。
  29. 前記要求はクエリを含む、請求項28に記載のシステム。
  30. メモリと、
    1つ以上の処理装置を備えるコントローラと、
    を備えたシステムであって、
    前記コントローラは、
    入力音声データを表す第1の信号を受信し、
    前記入力音声データ中の1つ以上の単語を検出するために前記第1の信号を処理し、
    前記入力音声データの中で検出された前記1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択し、
    前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成し、
    前記電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信する、
    ように構成され、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成される、システム。
  31. 前記コントローラは、
    前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信し、
    前記第2の電子ファイルに基づき、音響変換器に音響出力を発生させる
    ように構成される、請求項30に記載のシステム。
  32. 前記コントローラは、
    前記1つ以上の単語が、前記特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組を含むことを検出し、
    前記1つ以上の単語が前記1つ以上のキーワードの組を含むことを検出することに応じて、前記特定のVPAサービスプロバイダを選択する
    ように構成される、請求項30に記載のシステム。
  33. 前記コントローラは、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことを決定し、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことが決定されたことに応じて、デフォルトVPAサービスプロバイダを前記特定のVPAサービスプロバイダとして選択する
    ように構成される、請求項30に記載のシステム。
  34. 前記入力音声データは、前記第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、請求項30に記載のシステム。
  35. 前記コントローラは
    前記特定のVPAサービスプロバイダを使用するための資格情報を取得し、
    前記特定のVPAサービスプロバイダに前記資格情報を提供し、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立する
    ように構成される、請求項30に記載のシステム。
  36. 前記入力音声データは、モバイル装置のマイクロフォンを用いて捕捉される、請求項30に記載のシステム。
  37. 前記特定のVPAサービスプロバイダに関連付けられた前記1つ以上のキーワードの組は、ユーザカスタマイズされる、請求項30に記載のシステム。
  38. 1つ以上の処理装置に以下の動作を実行させるためのコンピュータ読み取り可能な命令を符号化して有する1つ以上の機械読み取り可能な記憶装置であって、
    前記動作は、
    入力音声データを表す第1の信号を受信する動作と、
    前記入力音声データ中の1つ以上の単語を検出するために前記第1の信号を処理する動作と、
    前記入力音声データの中で検出された前記1つ以上の単語に基づいて、複数の音声起動仮想パーソナルアシスタント(VPA)サービスプロバイダのリストから特定の仮想パーソナルアシスタント(VPA)サービスプロバイダを選択する動作と、
    前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成する動作であって、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成される、動作と、
    前記電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信する動作と
    を含む、1つ以上の機械読み取り可能な記憶装置。
  39. 前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信するための命令と、
    前記第2の電子ファイルに基づき、音響変換器に音響出力を発生させるための命令と、
    をさらに含む、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  40. 前記特定のVPAサービスプロバイダを選択する動作は、
    前記1つ以上の単語が、前記特定のVPAサービスプロバイダに関連付けられた1つ以上のキーワードの組を含むことを検出する動作と、
    前記1つ以上の単語が前記1つ以上のキーワードの組を含むことを検出したことに応じて前記特定のVPAサービスプロバイダを選択する動作と、
    を含む、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  41. 前記特定のVPAサービスプロバイダを選択する動作は、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことを決定する動作と、
    前記1つ以上の単語が前記リスト内の前記VPAサービスプロバイダのいずれか1つに関連付けられた1つ以上のキーワードの組を含まないことが決定されたことに応じて、デフォルトVPAサービスプロバイダを前記特定のVPAサービスプロバイダとして選択する動作と、
    を含む、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  42. 前記1つ以上の遠隔演算装置は、特定のVPAサービスプロバイダに対してクラウドベースのサービスを提供する、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  43. 前記入力音声データを表す第1の信号は、第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、
    請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  44. 前記特定のVPAサービスプロバイダを使用するための資格情報を取得するための命令と、
    前記資格情報を前記特定のVPAサービスプロバイダに提供するための命令と、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立するための命令と、
    をさらに含む、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  45. 前記入力音声データを表す第1の信号は、モバイル装置のマイクロフォンを用いて捕捉される、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  46. 前記特定のVPAサービスプロバイダに関連付けられた前記1つ以上のキーワードの組は、ユーザカスタマイズされる、請求項38に記載の1つ以上の機械読み取り可能な記憶装置。
  47. 1つ以上の処理装置に以下の動作を実行させるためのコンピュータ読み取り可能な命令を符号化して有する1つ以上の機械読み取り可能な記憶装置であって、
    前記動作は、
    第1の装置上に、複数の仮想パーソナルアシスタント(VPA)サービスプロバイダのユーザ選択可能なメニューを含む第1のユーザインタフェースを提示する動作と、
    特定のVPAサービスプロバイダを識別するユーザ選択を受信する動作と、
    前記第1の装置において、入力音声データを表す第1の信号を受信する動作と、
    前記第1の信号を処理し、前記入力音声データの少なくとも一部を含む第1の電子ファイルを生成する動作であって、前記第1の電子ファイルは前記特定のVPAサービスプロバイダの仕様に従って生成される、動作と、
    前記第1の電子ファイルを、前記特定のVPAサービスプロバイダに関連付けられる1つ以上の遠隔演算装置へ送信する動作と、
    前記第1の電子ファイルに含まれる前記入力音声データに対する応答を含む少なくとも第2の電子ファイルを受信する動作と、
    音響変換器に、第2の電子ファイルに基づき、音響出力を発生させる動作と
    を含む、1つ以上の機械読み取り可能な記憶装置。
  48. 前記1つ以上の遠隔演算装置は、前記特定のVPAサービスプロバイダに対してクラウドベースのサービスを提供する、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  49. 前記ユーザインタフェースは、前記第1の装置のディスプレイ上に提示される、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  50. 前記特定のVPAサービスプロバイダを識別する前記ユーザ選択を受信する動作に応じて、前記特定のVPAサービスプロバイダを使用するための資格情報を受信するための第2のユーザインタフェースを提示するための命令と、
    前記特定のVPAサービスプロバイダに対して前記資格情報を提供するための命令と、
    前記資格情報が認証されることに応じて、前記1つ以上の遠隔演算装置との通信チャネルを確立するための命令と
    をさらに含む、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  51. 前記入力音声データを表す第1の信号は、前記第1の装置に接続された音響装置またはリモートコントローラのマイクロフォンを用いて捕捉される、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  52. 前記入力音声データは、前記音響装置の前記マイクロフォンを用いて捕捉され、前記音響装置は、ヘッドセット、イヤホン、携帯型スピーカ、及び補聴器のうちの1つである、請求項51に記載の1つ以上の機械読み取り可能な記憶装置。
  53. 前記入力音声データは、前記リモートコントローラの前記マイクロフォンを用いて捕捉され、前記リモートコントローラは、音響装置、メディアストリーミング装置、ホームシアターシステム、またはテレビジョンのうちの1つを制御する、請求項51に記載の1つ以上の機械読み取り可能な記憶装置。
  54. 前記前記第1の装置は、モバイル装置であり、前記入力音声データを表す第1の信号は前記モバイル装置のマイクロフォンを用いて捕捉される、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  55. 前記第1の信号を処理することは、
    前記入力音声データに含まれる要求が前記第1の装置において対処可能であると決定することと、
    前記要求を前記第1の装置の1つ以上のプロセッサによって処理することと
    を含む、請求項47に記載の1つ以上の機械読み取り可能な記憶装置。
  56. 前記第1の電子ファイルに含まれる前記入力音声データから前記要求を除外することをさらに含む、請求項55に記載の1つ以上の機械読み取り可能な記憶装置。
JP2019531603A 2016-08-31 2017-08-31 単一の装置から複数の仮想パーソナルアシスタント(vpa)へのアクセス Active JP6886022B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/253,034 US10685656B2 (en) 2016-08-31 2016-08-31 Accessing multiple virtual personal assistants (VPA) from a single device
US15/253,034 2016-08-31
PCT/US2017/049518 WO2018045119A1 (en) 2016-08-31 2017-08-31 Accessing multiple virtual personal assistants (vpa) from a single device

Publications (2)

Publication Number Publication Date
JP2019534522A true JP2019534522A (ja) 2019-11-28
JP6886022B2 JP6886022B2 (ja) 2021-06-16

Family

ID=59856636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019531603A Active JP6886022B2 (ja) 2016-08-31 2017-08-31 単一の装置から複数の仮想パーソナルアシスタント(vpa)へのアクセス

Country Status (5)

Country Link
US (4) US10685656B2 (ja)
EP (2) EP4231285A3 (ja)
JP (1) JP6886022B2 (ja)
CN (3) CN109844856B (ja)
WO (1) WO2018045119A1 (ja)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11313173B2 (en) * 2019-05-14 2022-04-26 Olibra Llc Smart electric shades system, and its method of operation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10685656B2 (en) * 2016-08-31 2020-06-16 Bose Corporation Accessing multiple virtual personal assistants (VPA) from a single device
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018174443A1 (en) * 2017-03-23 2018-09-27 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
US10529327B1 (en) * 2017-03-29 2020-01-07 Parallels International Gmbh System and method for enabling voice recognition for operating system
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
MX2019001803A (es) 2017-08-02 2019-07-04 Panasonic Ip Man Co Ltd Aparato para procesamiento de informacion, sistema para reconocimiento de voz, y metodo para procesamiento de informacion.
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
KR102489914B1 (ko) * 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
JP2019086903A (ja) * 2017-11-02 2019-06-06 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US20190196779A1 (en) * 2017-12-21 2019-06-27 Harman International Industries, Incorporated Intelligent personal assistant interface system
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11030412B2 (en) * 2018-04-10 2021-06-08 Verizon Patent And Licensing Inc. System and method for chatbot conversation construction and management
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
JP2020004192A (ja) * 2018-06-29 2020-01-09 株式会社フュートレック 通信装置および通信装置を備える音声認識端末装置
US11848013B2 (en) * 2018-08-21 2023-12-19 Google Llc Automated assistant invocation of second interactive module using supplemental data provided by first interactive module
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
KR20200044175A (ko) 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 비서 서비스 제공 방법
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10908883B2 (en) * 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US10847156B2 (en) 2018-11-28 2020-11-24 Adobe Inc. Assembled voice interaction
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) * 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11037559B2 (en) 2018-12-27 2021-06-15 At&T Intellectual Property I, L.P. Voice gateway for federated voice services
CN109949801A (zh) * 2019-01-10 2019-06-28 百度在线网络技术(北京)有限公司 一种基于耳机的智能家居设备语音控制方法及***
US11017771B2 (en) 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
TWI718513B (zh) * 2019-03-29 2021-02-11 群光電子股份有限公司 電子裝置與語音辨識切換方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
KR20200141687A (ko) * 2019-06-11 2020-12-21 주식회사 오투오 음성 인식 액세서리를 이용한 서비스 제공 시스템 및 방법
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN110544475B (zh) * 2019-07-08 2022-03-11 三星电子(中国)研发中心 一种多语音助手的实现方法
US11449308B2 (en) 2019-07-19 2022-09-20 Google Llc Condensed spoken utterances for automated assistant control of an intricate application GUI
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
EP4013085A1 (en) * 2019-12-09 2022-06-15 Google LLC Relay device for voice commands to be processed by a voice assistant, voice assistant and wireless network
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11026177B1 (en) * 2020-01-23 2021-06-01 Amazon Technologies, Inc. Reducing battery consumption for portable devices with microphones
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111488090A (zh) * 2020-04-13 2020-08-04 北京市商汤科技开发有限公司 交互方法、装置、交互***、电子设备及存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160063989A1 (en) * 2013-05-20 2016-03-03 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016847B1 (en) * 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
US20050114141A1 (en) * 2003-09-05 2005-05-26 Grody Stephen D. Methods and apparatus for providing services using speech recognition
US20070291299A1 (en) * 2006-06-14 2007-12-20 Kabushiki Kaisha Toshiba System and method for generating location based content
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
EP2156401A4 (en) 2007-05-18 2013-04-17 Shorthand Mobile Inc SYSTEM AND METHOD FOR ADVANCED COMMUNICATION VIA COMMUNICATION SYSTEMS AT SMALL DATA RATE
US9386154B2 (en) * 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US20090248397A1 (en) * 2008-03-25 2009-10-01 Microsoft Corporation Service Initiation Techniques
US9146651B1 (en) * 2009-07-14 2015-09-29 Sprint Communications Company L.P. Displaying multiple applications on limited capability devices
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US9361878B2 (en) * 2012-03-30 2016-06-07 Michael Boukadakis Computer-readable medium, system and method of providing domain-specific information
US9171092B2 (en) 2012-12-07 2015-10-27 Empire Technology Development Llc Personal assistant context building
US9172747B2 (en) 2013-02-25 2015-10-27 Artificial Solutions Iberia SL System and methods for virtual assistant networks
TWI533686B (zh) 2013-03-11 2016-05-11 緯創資通股份有限公司 虛擬頻道之管理方法、具有虛擬頻道之網路多媒體重現系統和電腦可讀取記錄媒體
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US20140357248A1 (en) 2013-06-03 2014-12-04 Ford Global Technologies, Llc Apparatus and System for Interacting with a Vehicle and a Device in a Vehicle
WO2014197335A1 (en) * 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US20150019201A1 (en) 2013-07-09 2015-01-15 Stanley F. Schoenbach Real-time interpreting systems and methods
US9666187B1 (en) 2013-07-25 2017-05-30 Google Inc. Model for enabling service providers to address voice-activated commands
WO2015030796A1 (en) * 2013-08-30 2015-03-05 Intel Corporation Extensible context-aware natural language interactions for virtual personal assistants
US9547468B2 (en) 2014-03-31 2017-01-17 Microsoft Technology Licensing, Llc Client-side personal voice web navigation
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10152987B2 (en) 2014-06-23 2018-12-11 Google Llc Remote invocation of mobile device actions
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160162469A1 (en) * 2014-10-23 2016-06-09 Audience, Inc. Dynamic Local ASR Vocabulary
US10192549B2 (en) 2014-11-28 2019-01-29 Microsoft Technology Licensing, Llc Extending digital personal assistant action providers
CN111427534B (zh) 2014-12-11 2023-07-25 微软技术许可有限责任公司 能够实现可动作的消息传送的虚拟助理***
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US9934406B2 (en) 2015-01-08 2018-04-03 Microsoft Technology Licensing, Llc Protecting private information in input understanding system
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US20160373909A1 (en) 2015-06-17 2016-12-22 Hive Life, LLC Wireless audio, security communication and home automation
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US10453450B2 (en) 2015-10-20 2019-10-22 Bragi GmbH Wearable earpiece voice command control system and method
US9990209B2 (en) 2015-11-12 2018-06-05 Microsoft Technology Licensing, Llc Digital assistance device for facilitating multi-stage setup
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10115400B2 (en) * 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10685656B2 (en) * 2016-08-31 2020-06-16 Bose Corporation Accessing multiple virtual personal assistants (VPA) from a single device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160063989A1 (en) * 2013-05-20 2016-03-03 Intel Corporation Natural human-computer interaction for virtual personal assistant systems
WO2016054230A1 (en) * 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform

Also Published As

Publication number Publication date
CN109844856A (zh) 2019-06-04
WO2018045119A1 (en) 2018-03-08
US20180061418A1 (en) 2018-03-01
US20220157319A1 (en) 2022-05-19
JP6886022B2 (ja) 2021-06-16
US20200312330A1 (en) 2020-10-01
EP4231285A2 (en) 2023-08-23
CN116758919A (zh) 2023-09-15
CN116758920A (zh) 2023-09-15
EP3507797B1 (en) 2023-12-27
EP3507797A1 (en) 2019-07-10
US20180061420A1 (en) 2018-03-01
CN109844856B (zh) 2023-07-28
EP4231285A3 (en) 2023-11-08
US10186270B2 (en) 2019-01-22
US11250859B2 (en) 2022-02-15
US10685656B2 (en) 2020-06-16

Similar Documents

Publication Publication Date Title
US11250859B2 (en) Accessing multiple virtual personal assistants (VPA) from a single device
US10115396B2 (en) Content streaming system
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
EP3084633B1 (en) Attribute-based audio channel arbitration
US11900941B1 (en) Remote initiation of commands for user devices
CN108446022B (zh) 用户装置及其控制方法
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US20190187953A1 (en) Information processing apparatus, speech recognition system, and information processing method
US9766596B2 (en) Wake up to a cast alarm or an alarm plus content prompt
US12041438B2 (en) Location based audio signal message processing
KR20200013774A (ko) 보이스 가능 디바이스를 디스플레이 디바이스와 페어링
CN106134166A (zh) 语音接口的语言的自动选择
CN106537933B (zh) 便携式扬声器
US11367436B2 (en) Communication apparatuses
US20240205628A1 (en) Spatial Audio for Device Assistants

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210513

R150 Certificate of patent or registration of utility model

Ref document number: 6886022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250