JP2018509014A - デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整 - Google Patents
デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整 Download PDFInfo
- Publication number
- JP2018509014A JP2018509014A JP2017529078A JP2017529078A JP2018509014A JP 2018509014 A JP2018509014 A JP 2018509014A JP 2017529078 A JP2017529078 A JP 2017529078A JP 2017529078 A JP2017529078 A JP 2017529078A JP 2018509014 A JP2018509014 A JP 2018509014A
- Authority
- JP
- Japan
- Prior art keywords
- response
- mode
- computing device
- strings
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 22
- 230000002093 peripheral effect Effects 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 3
- 230000000977 initiatory effect Effects 0.000 claims 2
- 230000000007 visual effect Effects 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 59
- 238000004891 communication Methods 0.000 description 22
- 230000006854 communication Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000037081 physical activity Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
デジタルパーソナルアシスタントの応答を提供する方法は、複数の反応型エージェントに関連付けられたデジタルパーソナルアシスタントによって、コンピュータデバイス内のデジタルパーソナルアシスタントを用いて対話を開始するユーザ入力を受信することを含んでもよい。入力を受信することに応答して、コンピューティングデバイスの動作モードは、複数の利用可能な動作モードから検出されてもよい。複数の反応型エージェントのうちの1つは、受信した入力に基づいて選択され得る。選択された反応型エージェントに関連付けられた複数の応答文字列は、アクセスされ得る。コンピューティングデバイスの動作モードおよび少なくとも1つのハードウェア特性に少なくとも基づいて、複数の応答文字列のうちの少なくとも1つが、選択される。複数の応答文字列のうちの選択された少なくとも1つが、ユーザ入力に対する応答として、会話の間に提供している。
Description
[0001] コンピューティング技術が進歩するにつれて、益々強力なモバイルデバイスが、利用できるようになってきている。例えば、スマートフォンおよびその他のコンピューティングデバイスは、ありふれたものになっている。そのようなデバイスの処理ケイパビリティは、デジタルパーソナルアシスタントに関する機能など、様々な種類の機能の開発をもたらしている。
[0002] 様々なモバイルデバイス内に実装されているデジタルパーソナルアシスタントは、ユーザの質問または音声コマンドに応答することが可能な、インタラクティブかつ組み込みの会話理解力を有する。しかし、デジタルパーソナルアシスタントからのそのような応答は、使用されているデバイスの種類によっては、いつも適切であるとは限らないことがある。いくつかのデバイスは、例えば、タッチスクリーンを有しないことがあり、ユーザにスクリーン上のボタンをタッチまたは押下するよう命令する応答が、実行できないことがある。
[0003] 本概要は、詳細な説明においてさらに後述する概念の抜粋を、簡潔な形式で導入するために提供される。本概要は、特許請求された主題の重要な特徴または本質的特徴を特定することを意図するものではなく、特許請求された主題の範囲を限定するために使用されることを意図するものでもない。
[0004] 1つまたは複数の態様によれば、デジタルパーソナルアシスタントの応答を提供する方法は、複数の反応型エージェントに関連付けられたデジタルパーソナルアシスタントによって、コンピューティングデバイス内のデジタルパーソナルアシスタントを用いて対話を開始するユーザ入力を受信することを含んでもよい。入力を受信することに応答して、コンピューティングデバイスの動作モードは、複数の利用可能な動作モードから検出されてもよい。複数の反応型エージェントのうちの1つは、受信した入力に基づいて選択され得る。選択された反応型エージェントに関連付けられた複数の応答文字列は、アクセスされ得る。コンピューティングデバイスの動作モードおよび/または少なくとも1つのハードウェア特性に少なくとも基づいて、複数の応答文字列のうちの少なくとも1つが、選択される。複数の応答文字列のうちの選択された少なくとも1つが、ユーザ入力に対する応答として、会話の間に提供される。
[0005] 1つまたは複数の態様によれば、プロセッサ、メモリ、およびマイクロフォンを含むコンピューティングデバイスは、デジタルパーソナルアシスタントの応答を提供する方法を実行するように適合されてもよい。方法は、デジタルパーソナルアシスタントによって、ユーザにより生成された入力(例えば、テキスト、音声、触覚など)を受信することを含み、ここで、入力は、(デジタル音声入力の例では)マイクロフォンを介して受信され得る。入力を受信することに応答して、コンピューティングデバイスの動作モードおよび/または少なくとも1つのハードウェア特性が検出される。デジタルパーソナルアシスタントのための反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも1つ、および複数の応答文字列のうちの少なくとも1つについての提示モードが、選択される。複数の応答文字列のうちの少なくとも1つおよび提示モードを選択することは、動作モードおよび/または少なくとも1つのハードウェア特性に少なくとも基づいてもよい。デジタル音声入力に対する応答として、複数の応答文字列のうちの少なくとも1つが、提示モードを用いて提供されてもよい。
[0006] 1つまたは複数の態様によれば、コンピュータ可読記憶媒体は、実行時に、コンピュータシステムに、コンピュータシステム上で実行中のサードパーティアプリケーションによって、ユーザにより生成された入力を受信させる命令を含んでもよい。入力は、デジタル音声入力、例えば、タイピングによって受信されるテキスト入力、および/または任意の他のユーザ入力(例えば、触覚入力)を含んでもよい。デジタル音声入力は、マイクロフォンを介して受信されてもよい。マイクロフォンは、コンピュータシステム内の組み込みマイクロフォン、有線接続を介してコンピュータシステムに接続され(取り付けられ)得る、着脱可能なマイクロフォン、コンピュータシステムに無線で連結されるリモートリスニングデバイス(例えば、マイクロフォンを有するBluetooth(登録商標)ヘッドセット)、ならびに/またはマイクロフォンケイパビリティおよび/もしくはスピーカケイパビリティを有するコンパニオンデバイス(例えば、スマートウォッチ)であり得る。デジタル音声入力が使用される場合、デジタル音声入力を使用する自然言語処理は、ユーザ音声要求を判断するために実行される。ユーザ音声要求は、コンピュータシステム上で実行中のアプリケーションによって実行される、1つまたは複数の機能に関連付けられる。アプリケーションは、1つまたは複数の機能を実行するための1つまたは複数の反応型エージェントを含む。1つまたは複数の機能を実行するために、1つまたは複数の反応型エージェントのうちの1つが選択され得る。コンピュータシステムの動作モードおよび少なくとも1つのハードウェア特性を識別する情報が、アプリケーションによって要求され、要求することは、API要求を使用する。API要求に応答して、コンピュータシステムの動作モードおよび/または少なくとも1つのハードウェア特性を識別する情報が、受信される。選択されたサードパーティの反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも1つ、および複数の応答文字列のうちの少なくとも1つについての提示モードが、選択される。複数の応答文字列のうちの少なくとも1つおよび提示モードを選択することは、動作モードおよび/または少なくとも1つのハードウェア特性に少なくとも基づく。ユーザ音声要求に対する応答として、複数の応答文字列のうちの少なくとも1つが、提示モードを用いて提供され得る。
[0007] 本明細書で説明するように、様々な他の特徴および利点が、所望により、技術に組み込まれ得る。
[0015] 本明細書で説明するように、様々な技術および解決手段が、デバイスにわたってデジタルパーソナルアシスタントの反応型エージェントを調整するために適用され得る。より具体的には、ユーザ入力(例えば、音声制御されたデジタルパーソナルアシスタントに対する音声入力、タイプされた入力などのテキスト入力、触覚入力など)を検出すると、反応型エージェントが、デバイス機能に関連付けられ、ユーザ入力によって引き起こされるタスクを実行することを支援するために選択されてもよい。デジタルパーソナルアシスタント(または、エージェント)は、次いで、ユーザ入力に応答して開始される音声応答対話をカスタマイズするために、現在のデバイス動作モード、および1つまたは複数のデバイスケイパビリティ(例えば、ハードウェア特性などの、1つまたは複数のデバイス特徴または特性)を使用してもよい。応答文字列は、デバイス動作モード、および/または1つもしくは複数のデバイスケイパビリティに基づいて選択されてもよい。追加的に、応答文字列を提示するための提示モード(例えば、音声専用、表示専用、音声/表示の組み合わせ、応答文字列の詳細度、など)は、また、デバイス動作モード、および/または1つもしくは複数のデバイスケイパビリティに基づいてカスタマイズされてもよい。この点において、デバイス種類のハードウェアケイパビリティ、およびユーザがデジタルパーソナルアシスタントと対話する際にどのように関与しているかを用いて(例えば、デバイス動作モードに基づいて)、デジタルパーソナルアシスタントは、より適切かつ効率的な応答エクスペリエンスを提供して、特定の動作モードで使用されている特定のデバイスに適合させる。
[0016] 本明細書で使用されるように、「反応型エージェント」という用語は、デバイス機能に関連付けられる1つまたは複数の応答対話(例えば、音声、テキスト、および/または触覚的応答)を実装するために、デジタルパーソナルアシスタントによって使用され得るデータ/コマンド構造をいう。デバイス機能(例えば、電子メール、メッセージなど)は、デジタルパーソナルアシスタントへのユーザ入力(例えば、音声コマンド)によってアクティブ化されてもよい。反応型エージェント(または、エージェント)は、音声エージェント定義(voice agent definition:VAD)または反応型エージェント定義(reactive agent definition:RAD)XML文書、および対話を通じてエージェントを駆動するために使用されるプログラミングコード(例えば、C++コード)を用いて定義され得る。
[0017] 図1は、本開示の実施形態の例による、異なるデバイスケイパビリティを有するコンピューティングデバイスにわたって、デジタルパーソナルアシスタントエージェントを調整するためのアーキテクチャ100の例を示す、ブロック図である。図1を参照すると、アーキテクチャ100は、コンピューティングデバイス102、...、104を含んでもよく、各コンピューティングデバイスは、それぞれ120、...、121などの特定のデバイスケイパビリティ(または特性)を有する。コンピューティングデバイス102、...、104は、デスクトップコンピュータ、ラップトップコンピュータ、ネットブック、タブレットコンピュータ、スマートフォン、またはオペレーティングシステム(例えば、106、...、107)、およびデジタルパーソナルアシスタント108(音声制御されるデジタルパーソナルアシスタントであってもよい)を実行可能なその他のコンピューティングデバイスを含み得る。デジタルパーソナルアシスタント108は、コンピューティングデバイス102上にインストールされているものとして図示されるが、本開示は、この点について限定されない。例えば、コンパニオンデバイス(例えば、スマートウォッチ)が、デジタルパーソナルアシスタントがインストールされている別のデバイス(例えば、電話)と通信してもよい。この場合、コンパニオンデバイスが、そのデバイス上にインストールされたデジタルパーソナルアシスタントを有しないとしても、第2のデバイス(即ち、電話)上にインストールされたデジタルパーソナルアシスタントによって提供される情報(例えば、応答文字列)に依存することによって、本明細書で説明する機能をやはり利用してもよい。デジタルパーソナルアシスタントは、また、クラウド環境内のサーバの一部であってもよく、サーバは、クラウド環境内の複数の他のデバイスによってアクセス可能であってもよい。
[0018] コンピューティングデバイス102、...、104のそれぞれは、デジタルパーソナルアシスタント(DPA)108を使用してもよい。DPA108は、適当なロジック、回路、インターフェース、および/またはコードを含んでもよく、RA110、...、114などの1つまたは複数の反応型エージェント(RA)を使用するように動作可能であってもよい。RAは、1つまたは複数の機能を実行するために使用されてもよく、1つまたは複数の機能は、DPA108へのユーザ入力(例えば、音声入力)によって、引き起こされてもよい。例えば、RA110は、電子メールエージェントであってもよく、電子メールエージェントは、ユーザの音声コマンドに基づいて、新たな電子メールウィンドウを開き、音声入力に基づいて電子メールを作成し、音声入力により指定される電子メールアドレスに電子メールを送信するために使用されてもよい。RA110、...、114は、また、ユーザ入力に基づいてDPA108を用いて開始される対話セッション中に、1つまたは複数の応答(例えば、音声/ビデオ/触覚的応答)を提供するために使用されてもよい。より具体的には、RA110、...、114およびDPA108は、モード/デバイスに適した応答(MDAR)126、...、130、および132、...、136を取得するための調整サービス116を使用してもよい。MDARは、デバイス動作モード、および/または1つもしくは複数のデバイス特性/ケイパビリティに基づいて選択される応答(応答文字列など)であり得る。
[0019] 実装例では、そのような応答のための応答文字列および/または提示モードの選択は、デバイスからのユーザの距離、ユーザの姿勢(例えば、横になっている、座っている、または立っている)、ユーザの周囲の社会環境についての知識(例えば、他のユーザが存在する)、騒音レベル、および現在のユーザ活動(例えば、ユーザが能動的に会話している、または身体活動を行っている)などの、他の要因にさらに基づき得る。例えば、コンピューティングデバイスとの能動的な関与についてのユーザの現在の利用可能性は、ユーザの現在の活動についての知識に基づいて判断されてもよい(例えば、ユーザの声を検出することによって、ユーザが現在会話に参加していることをデバイスが検出してもよく、ユーザが身体活動を示して活発に動いており、したがって、ユーザがデバイス画面を見ることができないことをデバイスが検出してもよく、ユーザが動いていないことを示す動きがないことで、デバイスとの完全な関与が可能であることをデバイスが検出してもよい)。
[0020] デバイスからのユーザの距離は、例えば、ユーザがスピーカフォンを介してデバイスと通信するときの受信信号強度に基づいて判断されてもよい。ユーザが閾値距離を越えると判断される場合、デバイスは、画面がユーザに見えず、したがって利用できないと考えてもよい。この例では、MDARが選択されてもよく、適切な提示モードが、さらに修正されてもよい(例えば、音声専用提示モードが選択されてもよい)。
[0021] 調整サービス116は、適当なロジック、回路、インターフェース、および/またはコードを含んでもよく、デバイス動作モード情報(例えば、118、...、119)および/またはデバイスケイパビリティ(もしくは、デバイス特性)情報(例えば、120、...、121)に基づいて、MDAR126、...、130を生成するように動作可能であってもよい。より具体的には、調整サービス116は、現在アクティブ(例えば、ユーザがDPA108を使用して対話中)である反応型エージェントを判断してもよく、反応型エージェントに関連付けられた複数の応答文字列(または、例えば図2に示すような利用可能な対話応答)にアクセスしてもよい。次いで、調整サービス116は、デバイス動作モード118および/またはデバイスケイパビリティ120に基づいて、(例えば、適切な応答を選択することによって)応答を調整してもよい。例えば、コンピューティングデバイス102および104は、異なるデバイスケイパビリティ/特性(120および121、例えば、異なるデバイスフォームファクタ)を有してもよい。この場合、調整サービス116は、同一の反応型エージェント110、...、114それぞれに対して異なるモード/デバイスに適した応答132、...、136を選択することになる。デバイス動作モード118および/またはデバイスケイパビリティ120が利用可能でない場合、既定値応答(例えば、図2の202)が選択されてもよい。
[0022] 調整サービス116は、RAおよびDPA108から分離されて図示されているが、本開示は、この点について限定されなくともよい。実施形態の例では、調整サービスは、反応型エージェントのうちの1つもしくは複数の一部として、および/またはデジタルパーソナルアシスタント108の一部として実装されてもよい。追加的に、反応型エージェント110、...、114が、ネイティブエージェント(即ち、コンピューティングデバイス102、...、104内に実装されている)として図示されているとしても、反応型エージェントのうちの1つまたは複数は、コンピューティングデバイスの外部(例えば、1つまたは複数の通信ネットワークを介してコンピューティングデバイス102、...、104によってアクセス可能な、クラウド環境のサーバコンピュータ内)に実装されてもよい。
[0023] 図2は、本開示の実施形態の例による、図1のアーキテクチャにおいて用いられる調整サービスを有する反応型エージェントの例を示す、ブロック図である。図2を参照すると、反応型エージェント200の例は、(図1に示した)デジタルパーソナルアシスタント108に関連付けられた反応型エージェントである。調整サービス116は、反応型エージェント200から分離されて実装され、応答データベース212およびユーザインターフェース(U/I)エンジン214に通信可能に連結される。
[0024] 調整サービス116は、また、音声プラットフォーム211を含んでもよく、音声プラットフォーム211は、適当なロジック、回路、インターフェース、および/またはコードを含んでもよく、情報の音声テキスト処理、およびテキスト音声処理を実行するように動作可能であってもよい。音声プラットフォーム211は、任意選択により、調整サービス116の外部に実装されてもよい。コンピューティングデバイス102上で実行中の1つまたは複数のアプリケーション(例えば、図4のアプリケーション402などのサードパーティアプリケーション)は、デジタルパーソナルアシスタント108同様、音声プラットフォーム211を用いて、調整サービス116、および反応型エージェント110、...、114のうちの1つまたは複数とやり取りしてもよい。この点において、音声プラットフォーム211は、デバイス102および/またはDPA108のための反応型エージェントとの通信を抽出してもよい。デバイスモード情報210および/またはデバイスケイパビリティ情報208は、最初に、音声プラットフォーム211に提供され、次いで、調整サービス116に伝達されて、モード/デバイスに適した応答をデータベース212から取得する際に使用されてもよい。
[0025] 動作において、ユーザは、ユーザ入力を提供することによって、デジタルパーソナルアシスタント108で対話を開始してもよい。入力は、デジタル音声入力、例えば、タイピングによって受信される、テキスト入力、および/または任意の他のユーザ入力(例えば、触覚入力)を含んでもよい。デジタル音声入力は、マイクロフォンを介して受信されてもよい。マイクロフォンは、コンピューティングデバイス内の組み込みマイクロフォン、有線接続を介してコンピュータシステムに接続され(取り付けられ)得る、着脱可能なマイクロフォン、コンピュータシステムに無線で連結されるリモートリスニングデバイス(例えば、マイクロフォンを有するBluetoothヘッドセット)、ならびに/またはマイクロフォンケイパビリティおよび/もしくはスピーカケイパビリティを有するコンパニオンデバイス(例えば、スマートウォッチ)であり得る。デジタル音声入力が使用される場合、デジタル音声入力を使用する(例えば、音声プラットフォーム211による)自然言語処理は、ユーザ音声要求を判断するために実行される。ユーザ音声要求は、デジタルパーソナルアシスタントおよび/またはコンピューティングデバイス上で実行中のアプリケーションによって実行される、1つまたは複数の機能に関連付けられてもよい。デジタルパーソナルアシスタントおよび/またはアプリケーションは、1つまたは複数の機能を実行するための1つまたは複数の反応型エージェント(例えば、反応型エージェント200)を含んでもよい。
[0026] 現在のデバイス動作モード210および/またはデバイスケイパビリティ/特性情報208が、音声プラットフォーム211および調整サービス116に通信されてもよい。デバイスケイパビリティ/特性情報208は、ディスプレイ解像度、ディスプレイの種類/サイズ、ディスプレイの可用性、音声能力(例えば、マイクロフォンの可用性、スピーカの可用性)、Bluetoothの可用性、および/またはコンピューティングデバイスに関するデバイスフォームファクタのうちの1つまたは複数を含んでもよい。
[0027] 例えば、ディスプレイの種類は、フルディスプレイタイプ(応答文字列/回答のサイズについてほとんどまたは全く制限がない)、拡張ディスプレイタイプ(一次デバイスディスプレイではない第2の/追加のディスプレイを含んでもよく、それによって、利用可能なディスプレイのそれぞれについて、応答文字列の複数のバージョンが使用され得る)、限られた/小さなディスプレイタイプ(タッチスクリーンケイパビリティのない携帯電話、ウェアラブルデバイスなどの、小さなディスプレイを有するデバイス)、およびディスプレイのないデバイス(デバイスが、いかなるディスプレイも持たず、音声ケイパビリティのみを有する)を含んでもよい。
[0028] 音声能力は、テキスト音声(TTS)の可用性(デバイスが、ユーザ情報を与えることに役立つ音声を出力できる)、TTS可用性がない(デバイスにサウンド/スピーカ能力がない、またはユーザがスピーカをミュートにしている)、およびイアコンのみの可用性(例えば、デバイスが、イアコン(またはビープ音)などの限られた音を発生させ得る)を含んでもよい。
[0029] 図3は、本開示の実施形態の例による、デバイス動作モードおよび対応する出力文字列の例を有する表を示すブロック図である。図3を参照すると、デバイス動作モード310の例が、対応する表示出力文字列312および/または音声出力文字列314とともに、表にされている。
[0030] デバイス動作モード310は、音声専用モード316、完全な使用中モード322、やや注意散漫モード328、および表示制限モード334を含み得る。4つの動作モード(316、322、328、および334)のみが、図3に示されているが、本開示は、この点について限定されず、他の動作モードおよびデバイスの種類もまた、本明細書で開示する技術とともに使用されてもよい。音声専用モード316は、コンピューティングデバイスが、物理的ディスプレイ面を有しないとき、またはデバイスディスプレイが利用できない(例えば、主ディスプレイが接続されておらず、2次ディスプレイがアクティブである)ときに、使用されてもよい。一次ディスプレイが、非アクティブで、2次ティスプレイがアクティブである場合、詳細な表示文字列318が、出力として提示されてもよい。詳細なTTS文字列320もまた、(例えば、スピーカを介して)提示されてもよい。
[0031] 完全な使用中モード322は、ユーザが物理的にデバイスの隣(正面)にいて、ユーザが、デバイスに完全に関与している可能性が高い(例えば、ユーザが、デスクトップコンピュータまたはラップトップの正面にいる)ときに使用されてもよい。この場合、詳細度の低い表示文字列324が、表示されてもよく、および/または短いTTS文字列326が、音声出力314として提示されてもよい。
[0032] やや注意散漫モード328は、ユーザが、コンピューティングデバイスの周辺にいるが、ユーザが、デバイスに完全には関与していない(例えば、ユーザが運転中であり、デジタルパーソナルアシスタントを有するユーザの携帯電話がユーザの隣にある)ときに、使用されてもよい。この場合、詳細度の低い表示文字列330が、表示されてもよく、および/または詳細度が中程度のTTS文字列332が、音声出力314として提示されてもよい。
[0033] 表示制限モード334は、コンピューティングデバイスが、限られた表示面を有する2次/周辺デバイスであるときに使用されてもよい。この場合、短い表示文字列336が、出力文字列312として表示されてもよい。
[0034] 表示および音声文字列の概要は、本明細書で以下に提供される。
[0035] 詳細な表示文字列は、回答として提供される情報を素早く要約するように意図されたテキスト文字列であってもよい。詳細な表示文字列は、回答として期待され得る完全な情報を提供してもよく、または提供しなくてもよい。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、領域は制限されないが音がオフであるディスプレイ、音がミュートである、またはオーディオがないデスクトップ、電子看板、テキスト専用能力を有するスクロール可能な小型画面、および/またはウェアラブルデバイス用の拡張ディスプレイで、使用されてもよい。
[0036] 短い詳細な文字列は、テキスト文字列(例えば、多くとも100文字)であってもよく、言語において制限のある人をサポートしてもよく、実用的な適用により適している。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、スマートウォッチなどのウェアラブルデバイス、サーモスタット、スマート計算器、オーブン、冷蔵庫などで使用されてもよい。
[0037] 詳細度の低い表示文字列は、デジタルパーソナルアシスタントを用いたユーザエクスペリエンスに対する補助文字列であるテキスト文字列であってもよく、文字列は、本質的でない情報を伝達するために使用されてもよい。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、電話(ユーザが現在デバイス画面を見ている時)、デスクトップコンピュータ、スマートデバイス/表示ケイパビリティを有する自動車、ゲームコンソールなどで使用されてもよい。
[0038] 詳細なTTS音声文字列は、デジタルパーソナルアシスタントを用いた対話中に回答として提供される情報を素早く要約するように意図された応答文字列であってもよい。この種類の音声TTS文字列は、デバイスフォームファクタまたは動作モードの以下の例、音声専用モードのコンピューティングデバイス、運転中に使用されるコンピューティングデバイス(運転中の使用が検出される場合に、デバイスが自動的に音声専用モードに切り替わってもよい)、旧世代のスマートデバイスまたはスマートフォンケイパビリティを有しないモバイルデバイスなどで使用されてもよい。
[0039] 詳細度が中程度のTTS音声文字列は、有用な応答情報を提供してもよく、応答文字列が、音声専用モード中に提供される応答文字列と同程度の詳細度である必要はない。この種類の音声TTS文字列は、デバイスフォームファクタまたは動作モードの以下の例、注意散漫なユーザによって使用されるコンピューティングデバイス(例えば、ユーザが別のデバイスを使用しており、ユーザの携帯電話がユーザの隣のテーブルに置いてある)で使用されてもよい。
[0040] 短いTTS音声文字列(または、イアコンのみ)は、非常に短い読み出しを提供してもよい。この種類の音声TTS文字列は、デバイスフォームファクタまたは動作モードの以下の例、ゲームコンソール、TV、デスクトップコンピュータなどで使用されてもよい。
[0041] 再び図2を参照して、音声プラットフォーム211が、デバイスケイパビリティ情報208および動作モード情報210を受信した後、この情報は、応答データベース212にアクセスし、MDAR204、...、206などの1つまたは複数のモード/デバイスに適した応答218を取得するために使用される。追加的に、コンピューティングデバイス102が、第2のディスプレイ(または、表示/音声/触覚ケイパビリティを有する別の周辺デバイス)を使用する場合、第2の応答文字列220は、また、反応型エージェント200に返され、次いで周辺デバイスへと通信されてもよい(データベース212から周辺デバイスへの直接通信も可能)。追加的に、調整サービス116は、ユーザインターフェースエンジン214を使用して、U/I(例えば、HTML U/I)222を生成してもよい。U/I222は、デバイスフォームファクタおよび/または他のデバイスケイパビリティ(例えば、ケイパビリティ/特性208)に対して最適化される。
[0042] 実施形態の例では、反応型エージェント200は、複数デバイスと関連して使用されてもよい。例えば、一方のデバイスが一次デバイスであり、他方のデバイスが2次/コンパニオンデバイスである、2つのコンピューティングデバイスが共同して動作してもよい。この場合、エージェント(例えば、200)は、各デバイスの種類/モードにつき1つの、2つの応答(例えば、204および206)を生成してもよい。
[0043] デバイス動作モード情報210(および/またはデバイスケイパビリティ208のうちの1つもしくは複数)を調整サービス116が利用できない場合、規定値応答202が提供されてもよい。既定値応答202は、デバイスケイパビリティに対する指定がなくてもよく、複数のデバイスフォームファクタにおける使用に対して最適化されてもよい(例えば、テキストメッセージ送信のためのユーザおよびデジタルパーソナルアシスタント間の対話交換は、メッセージ受信者およびメッセージ内容について問い合わせてもよい)。
[0044] 図4は、本開示の実施形態の例による、調整され得るアプリケーション反応型エージェントを用いるコンピューティングデバイスのブロック図である。図4を参照すると、コンピューティングデバイス102は、アプリケーション(app)402などの1つまたは複数のアプリケーションを実行中であってもよい。app402は、例えば、サードパーティアプリケーション、またはデバイスのオペレーティングシステムで提供されるネイティブアプリケーションであり得る。app402は、ARA404などの1つまたは複数のアプリケーション反応型エージェント(ARA)を使用してもよい。実施形態の例では、ARA404は、app402の一部として(または、デバイス102に通信可能に連結されるリモートサーバにおいてなど、コンピューティングデバイス102の外部に)実装されてもよい。対話が、app402のユーザで開始されるとき、ARA404は、app402によって使用される応答を生成するように動作可能であってもよい。この点において、図1〜3を参照して説明した機能のうちの1つまたは複数が、app402において利用可能であってもよい。
[0045] より具体的には、app402は、調整サービス116(app402の一部として実装されてもよい)を使用して、モード/デバイスに適した応答を提供してもよい。例えば、調整サービス116が、app402(または、ARA404)内で実装される場合、API要求420は、モードおよび/またはデバイスケイパビリティ情報を要求するために使用されてもよい。デバイスモード情報118、および/またはデバイスケイパビリティ情報120は、調整サービス116(調整サービスが、app402の一部である場合)による使用のために、app402に通信されてもよい。応答データベース(例えば、212)およびユーザインターフェースエンジン(例えば、214)との通信後、モード/デバイスに適した応答は、app402による使用のために、生成され、app402またはARA404に通信されてもよい。
[0046] 別の実施形態では、ARA404は、(デジタルパーソナルアシスタント108内の404について破線で示されるように)デバイスネイティブエージェント110、...、114の一部として実装されてもよい。この場合、モード/デバイスに適した応答(例えば、414)は、図1〜3においてネイティブRA110、...、114を参照して説明したように生成されてもよい。MDAR414は、次いで、app402のユーザによって開始される対話での使用のために、TPA402に通信されてもよい。
[0047] 図5〜7は、1つまたは複数の実施形態による、デバイスにわたってデジタルパーソナルアシスタントエージェントを調整することを示すフロー図である。図1〜3および図5を参照すると、方法500の例は、502において、コンピューティングデバイス102が、コンピューティングデバイス内のデジタルパーソナルアシスタント(例えば、DPA108)を用いて対話を開始するユーザ入力を受信し得るときに、開始してもよい。デジタルパーソナルアシスタント108は、RA110、...、114などの複数の反応型エージェントに関連付けられてもよい。504において、入力を受信することに応答して、コンピューティングデバイスの動作モード(例えば、118)が、複数の利用可能な動作モード(例えば、316、322、328、および334)から検出されてもよい。506において、DPA108は、受信した入力に基づいて、複数の反応型エージェントのうちの1つ(例えば、110)を選択してもよい。例えば、RAのうちの1つが、受信したユーザ入力に関連する機能の種類(例えば、メッセージ、電子メール、ナビゲーションなど)に基づいて選択されてもよい。508において、調整サービス116(および/または反応型エージェント)は、選択された反応型エージェントに関連付けられた複数の応答文字列(例えば、データベース212内の応答)にアクセスしてもよい。510において、調整サービス116は、コンピューティングデバイスの動作モード(例えば、118)および/または少なくとも1つのハードウェア特性(例えば、デバイスケイパビリティ/特性120のうちの1つまたは複数)に少なくとも基づいて、複数の応答文字列のうちの少なくとも1つを選択してもよい。512において、複数の応答文字列のうちの選択された少なくとも1つが、ユーザ入力に対する応答として、調整サービス116によって提供されてもよい。
[0048] 図1〜3および図6を参照すると、方法600の例は、602において、デジタルパーソナルアシスタント108が、ユーザによって生成されたデジタル音声入力を受信し得るときに、開始してもよい。デジタル音声入力は、コンピューティングデバイス102のマイクロフォンを介して受信されてもよい。604において、デジタル音声入力を受信することに応答して、コンピューティングデバイスの動作モード(例えば、118)および少なくとも1つのハードウェア特性(例えば、120)が、検出されてもよい。606において、調整サービス116は、デジタルパーソナルアシスタント(例えば、108)のための反応型エージェント(例えば、RA110、...、114のうちの1つ)に関連付けられた、(例えば、応答データベース212内の)複数の応答文字列のうちの少なくとも1つを選択してもよい。608において、調整サービス116は、複数の応答文字列のうちの少なくとも1つ(例えば、RA110に通信される、返されたMDAR126)についての(例えば、図3を参照して説明したような)提示モードを選択してもよい。複数の応答文字列のうちの少なくとも1つおよび提示モードを選択することは、動作モード(118)および/または少なくとも1つのハードウェア特性(120)に少なくとも基づいてもよい。610において、RA110、DPA108(および/または調整サービス116)は、デジタル音声入力に対する応答として、複数の応答文字列のうちの少なくとも1つ(例えば、MDAR126)を、提示モードを用いて提供してもよい。
[0049] 図1〜4および図7を参照すると、方法700の例は、702において、コンピュータシステム(例えば、デバイス102)上で実行中のアプリケーション(例えば、app402)が、ユーザによって生成されたデジタル音声入力を受信し得るときに、開始してもよい。デジタル音声入力は、コンピューティングデバイス102のマイクロフォンを介して受信されてもよい。704において、コンピューティングデバイス102は、ユーザ音声要求を判断するために、デジタル音声入力を使用して自然言語処理を実行してもよい(例えば、自然言語処理は、調整サービス116に関連付けられた音声プラットフォーム211によって実行されてもよい)。ユーザ音声要求は、コンピュータシステム(例えば、デバイス102)上で実行中のアプリケーション(app402)によって実行される1つまたは複数の機能に関連付けられてもよい。アプリケーション(app402)は、1つまたは複数の機能を実行するための1つまたは複数のアプリケーション反応型エージェント(例えば、ARA404)を含んでもよい。
[0050] 706において、app402(および/またはDPA108)は、1つまたは複数の機能を実行するための1つまたは複数のアプリケーション反応型エージェントのうちの1つを選択してもよい(例えば、ARA404が選択されてもよい)。708において、アプリケーション(app402)は、API要求(例えば、420)を使用して、コンピュータシステムの動作モードおよび/または少なくとも1つのハードウェア特性を識別する情報を要求してもよい。710において、API要求420に応答して、コンピュータシステムの動作モード(例えば、118)および/または少なくとも1つのハードウェア特性(例えば、120)を識別する、要求された情報が、app402で受信されてもよい(例えば、app402が、調整サービス116および/またはDPA108の機能を実装するときに、情報118および/または120が、app402によって受信される)。712において、選択された反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも1つが、選択されてもよい(例えば、MDAR414が、選択されてもよい)。714において、複数の応答文字列のうちの少なくとも1つについての提示モードが、調整サービス116によって選択されてもよい。複数の応答文字列のうちの少なくとも1つおよび提示モードを選択することは、動作モード(118)および/または少なくとも1つのハードウェア特性(120)に少なくとも基づいてもよい。716において、ユーザ音声要求に対する応答として、複数の応答文字列のうちの少なくとも1つ(MDAR414)が、提示モードを用いて提供されてもよい。
[0051] 図8は、本明細書で説明するイノベーションが併せて実装され得る、モバイルコンピューティングデバイスの例を示すブロック図である。モバイルデバイス800は、全体として802で示される、様々な任意選択的なハードウェアおよびソフトウェアコンポーネントを含む。説明を簡単にするために、接続が全て示されているわけではないが、概して、モバイルデバイス内のコンポーネント802は、デバイスの任意の他のコンポーネントと通信することができる。モバイルデバイス800は、様々なコンピューティングデバイス(例えば、携帯電話、スマートフォン、手持ちコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットデバイス、ネットブック、メディアプレーヤ、携帯情報端末(PDA)、カメラ、ビデオカメラなど)のうちのいずれかであってもよく、Wi−Fi、セルラ、または衛星ネットワークなどの、1つまたは複数のモバイル通信ネットワーク804で、無線双方向通信を可能にすることができる。
[0052] 図示されたモバイルデバイス800は、信号符号化、データ処理(重みの割り当て、および検索結果などのデータのランク付けを含む)、入力/出力処理、電力制御、ならびに/またはその他の機能などのタスクを実行するための、コントローラまたはプロセッサ810(例えば、信号プロセッサ、マイクロプロセッサ、ASIC、またはその他の制御および処理ロジック回路)を含む。オペレーティングシステム812は、コンポーネント802の配分および使用を制御し、1つまたは複数のアプリケーションプログラム811をサポートする。オペレーティングシステム812は、反応型エージェント813a、および調整サービス813bを有するデジタルパーソナルアシスタントを含んでもよい。調整サービス813b、および反応型エージェント813aを有するデジタルパーソナルアシスタントは、図1〜4を参照して説明したような調整サービス116、DPA108、および反応型エージェント(例えば、110、...、114、404)の機能に類似する機能を有してもよい。
[0053] 図示されるモバイルデバイス800は、メモリ820を含む。メモリ820は、非リムーバブルメモリ822、および/またはリムーバブルメモリ824を含み得る。非リムーバブルメモリ822は、RAM、ROM、フラッシュメモリ、ハードディスク、またはその他の周知のメモリ記憶技術を含み得る。リムーバブルメモリ824は、フラッシュメモリ、または汎欧州デジタル移動電話方式(GSM(登録商標))通信システムにおいて周知の加入者識別モジュール(SIM)カード、または「スマートカード」などのその他の周知のメモリ記憶技術を含み得る。メモリ820は、オペレーティングシステム812およびアプリケーション811を実行するためのデータおよび/またはコードを記憶するために使用され得る。データの例は、ウェブページ、テキスト、画像、サウンドファイル、ビデオデータ、または、1つもしくは複数の有線もしくは無線ネットワークを介して、1つもしくは複数のネットワークサーバもしくはその他のデバイスに送信および/もしくは受信されるべきその他のデータセットを含み得る。メモリ820は、国際移動体加入者識別番号(IMSI)などの加入者識別子、および国際移動体装置識別番号(IMEI)などの機器識別子を記憶するために使用され得る。そのような識別子は、ユーザおよび機器を識別するためにネットワークサーバに伝送され得る。
[0054] モバイルデバイス800は、タッチスクリーン832(例えば、指タップ入力、指ジェスチャ入力、または仮想キーボードもしくはキーパッドに対するキーストローク入力を取り込み可能)、マイクロフォン834(例えば、音声入力を取り込み可能)、カメラ836(例えば、静止画像および/もしくは動画を取り込み可能)、物理キーボード838、ボタン、ならびに/またはトラックボール840などの1つまたは複数の入力デバイス830、ならびに、スピーカ852およびディスプレイ854などの1つまたは複数の出力デバイス850をサポートし得る。その他の考えられる出力デバイス(不図示)は、圧電性の、またはその他のハプティック出力装置を含み得る。いくつかのデバイスは、1つより多くの入力/出力機能を供給することができる。例えば、タッチスクリーン832およびディスプレイ854は、結合して単一の入力/出力デバイスにされ得る。モバイルデバイス800は、1つまたは複数のナチュラルユーザインターフェース(NUI)を提供することができる。例えば、オペレーティングシステム812またはアプリケーション811は、音声/ビデオプレーヤなどの、マルチメディア処理ソフトウェアを含み得る。
[0055] ワイヤレスモデム860は、本技術分野でよく理解されているように、1つまたは複数のアンテナ(不図示)に連結されてもよく、プロセッサ810および外部デバイス間の双方向通信をサポートすることができる。モデム860は、包括的に示されており、例えば、モバイル通信ネットワーク804と遠距離で通信するためのセルラモデム、外部Bluetooth搭載デバイスもしくはローカルワイヤレスデータネットワークと短距離で通信するためのBluetooth対応モデム864もしくはWi−Fi対応モデム862、またはルータを含み得る。ワイヤレスモデム860は、典型的には、単一のセルラネットワーク内、セルラネットワーク間、またはモバイルデバイスおよび公衆交換電話網(PSTN)間のデータおよび音声通信のためのGSMネットワークなどの、1つまたは複数のセルラネットワークとの通信のために構成される。
[0056] モバイルデバイスは、少なくとも1つの入力/出力ポート880、電力供給882、全地球測位システム(GPS)受信機などの衛星航法システム受信機884、加速度計、ジャイロスコープ、もしくはデバイス800の方向および動きを検出し、ジェスチャコマンドを入力として受信するための赤外線近接センサなどのセンサ886、(アナログもしくはデジタル信号を無線送信するための)送信機888、ならびに/または物理コネクタ890を、さらに含み得る。物理コネクタ890は、USBポート、IEEE1394(FireWire)ポート、および/またはRS−232ポートであってもよい。図示したコンポーネントのうちのいずれかが削除され、他のコンポーネントが追加され得るため、説明したコンポーネント802は、必須ではなく、または全てを含むものではない。
[0057] モバイルデバイスは、衛星航法システム受信機884(例えば、GPS受信機)を通じて受信する情報に基づいて、モバイルデバイスの位置を示す位置データを判断することができる。代替的には、モバイルデバイスは、別の方法で、モバイルデバイスの位置を示す位置データを判断することができる。例えば、モバイルデバイスの位置は、セルラネットワークの基地局間の三角測量によって判断され得る。あるいは、モバイルデバイスの位置は、モバイルデバイスの周辺のWi−Fiルータの既知の位置に基づいて判断され得る。位置データは、実装および/またはユーザ設定に応じて、毎秒または何らかの他の基準で更新され得る。位置データの出所に関わらず、モバイルデバイスは、地図ナビゲーションで使用するための地図ナビゲーションツールに位置データを提供することができる。
[0058] クラインアントコンピューティングデバイスとして、モバイルデバイス800は、要求をサーバコンピューティングデバイス(例えば、検索サーバ、ルーティングサーバなど)に送信し、地図画像、距離、方向、その他の地図データ、検索結果(例えば、指定した検索エリア内のPOI検索に基づくPOI)、またはその他のデータを、サーバコンピューティングデバイスからの戻り値として受信することができる。
[0059] モバイルデバイス800は、様々な種類のサービス(例えば、コンピューティングサービス)が、コンピューティング「クラウド」によって提供される、実装環境の一部であり得る。例えば、クラウドは、集中型または分散型で配置され得るコンピューティングデバイスの集合を含むことができ、クラウドベースのサービスを、インターネットなどのネットワークを介して接続される様々な種類のユーザ、およびデバイスに提供する。いくつかのタスク(例えば、ユーザ入力の処理、およびユーザインターフェースの提示)は、ローカルコンピューティングデバイス(例えば、接続されたデバイス)上で実行され得る。一方、他のタスク(例えば、後続の処理で使用されるべきデータの記憶、データの重み付け、およびデータのランク付け)が、クラウドで実行され得る。
[0060] 図8は、モバイルデバイス800を示しているが、より一般的には、本明細書で説明するイノベーションは、デスクトップコンピュータ、テレビジョン画面、またはテレビジョンに接続されるデバイス(例えば、セットトップボックスまたはゲームコンソール)などの、他の画面ケイパビリティおよびデバイスフォームファクタを有するデバイスで実装され得る。サービスは、サービスプロバイダを通じて、またはオンラインサービスの他のプロバイダを通じて、クラウドによって提供され得る。追加的には、本明細書で説明する技術は、音声ストリーミングに関係し得るため、デバイス画面は、必須でなくてもよく、または使用されなくともよい(ディスプレイは、音声/ビデオコンテンツが、ビデオ再生ケイパビリティを用いてマルチメディアエンドポイントデバイスにストリーミングされている場合に、使用されてもよい)。
[0061] 図9は、いくつかの説明される実施形態が実装され得る、コンピューティングシステムの例の図である。イノベーションは、多様な汎用または専用コンピューティングシステムにおいて実装されてもよいため、コンピューティングシステム900は、使用または機能の範囲についていかなる限定も示唆することを意図しない。
[0062] 図9を参照すると、コンピューティングシステム900は、1つまたは複数の処理ユニット910、915、およびメモリ920、925を含む。図9では、この基本構成930は、破線内に含まれる。処理ユニット910、915は、コンピュータ実行可能命令を実行する。処理ユニットは、汎用中央処理装置(CPU)、特定用途向け集積回路(ASIC)内のプロセッサ、または任意の他の種類のプロセッサであり得る。マルチ処理システムでは、マルチ処理ユニットは、処理能力を向上させるために、コンピュータ実行可能な命令を実行する。例えば、図9は、中央処理装置910、およびグラフィック処理ユニットまたは共処理ユニット915を示す。有形メモリ920、925は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)、または処理ユニットによってアクセス可能な2つの、いくつかの組み合わせであってもよい。メモリ920、925は、本明細書で説明する1つまたは複数のイノベーションを実装するソフトウェア980を、処理ユニットによる実行に適したコンピュータ実行可能命令の形式で記憶する。
[0063] コンピューティングシステムは、また、追加の特徴を有してもよい。例えば、コンピューティングシステム900は、記憶装置940、1つまたは複数の入力デバイス950、1つまたは複数の出力デバイス960、および1つまたは複数の通信接続970を含む。バス、コントローラ、またはネットワークなどの相互接続機構(不図示)が、コンピューティングシステム900のコンポーネントを相互接続する。典型的には、オペレーティングシステムソフトウェア(不図示)は、コンピューティングシステム900内で実行する他のソフトウェアのための動作環境を提供し、コンピューティングシステム900のコンポーネントの活動を連携させる。
[0064] 有形記憶装置940は、リムーバブルまたは非リムーバブルであってもよく、磁気ディスク、磁気テープもしくはカセット、CD−ROM、DVD、または情報を記憶するために使用され得る、かつ、コンピューティングシステム900内でアクセスされ得る、任意の他の媒体を含む。記憶装置940は、本明細書で説明する1つまたは複数のイノベーションを実装するソフトウェア980のための命令を記憶する。
[0065] 入力デバイス950は、キーボード、マウス、ペン、またはトラックボールなどのタッチ入力デバイス、音声入力デバイス、走査デバイス、またはコンピューティングシステム900に入力を提供する別のデバイスであってもよい。ビデオ符号化のために、入力デバイス950は、カメラ、ビデオカード、TVチューナカード、またはビデオ入力をアナログもしくはデジタル形式で受け付ける類似のデバイス、またはコンピューティングシステム900にビデオサンプルを読み出すCD−ROMもしくはCD−RWであってもよい。出力デバイス960は、ディスプレイ、プリンタ、スピーカ、CDライタ、またはコンピューティングシステム900から出力を提供する別のデバイスであってもよい。
[0066] 通信接続970は、別のコンピューティングエンティティに対し、通信媒体を介した通信を可能にする。通信媒体は、コンピュータ実行可能命令などの情報、音声入力もしくはビデオ入力もしくは出力、または変調データ信号内の他のデータを伝達する。変調データ信号は、信号内の情報を符号化するようなやり方で設定され、または変更された、信号の特性のうちの1つまたは複数を有する信号である。限定ではなく例として、通信媒体は、電気、光、RF、または他のキャリアを使用し得る。
[0067] イノベーションは、プログラムモジュールに含まれ、対象の実プロセッサまたは仮想プロセッサ上のコンピュータシステムにおいて実行されるような、コンピュータ実行可能命令の一般的な文脈において説明され得る。概して、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。プログラムモジュールの機能は、様々な実施形態において所望によりプログラムモジュール間で結合され、または分割されてもよい。プログラムモジュールのためのコンピュータ実行可能命令は、ローカルまたは分散コンピューティングシステム内で実行されてもよい。
[0068] 「システム」および「デバイス」という用語は、本明細書において交換可能に使用される。文脈が明確に示さない限り、どちらの用語も、コンピューティングシステムまたはコンピューティングデバイスの種類についていかなる限定も示唆しない。概して、コンピューティングシステムまたはコンピューティングデバイスは、ローカル型または分散型であってもよく、本明細書で説明する機能を実装するソフトウェアを有する、専用ハードウェアおよび/または汎用ハードウェアの任意の組み合わせを含み得る。
[0069] 提示のために、詳細な説明では、コンピューティングシステムにおけるコンピュータ動作を説明するために、「判断する」および「使用する」などの用語を使用する。これらの用語は、コンピュータによって実行される動作についてのハイレベルな抽象化であり、人間によって実行される動作と混同されるべきではない。これらの用語に対応する実際のコンピュータ動作は、実装に依存して様々である。
[0070] 開示された方法のうちのいくつかの動作は、提示の便宜のために特定の連続した順序で説明されるが、特定の順序付けが、以下に記載する特定の言葉によって必要とされない限り、このような説明は、再配列を包含すると理解されるべきである。例えば、連続して説明される動作は、いくつかの場合には再配列されてもよく、または同時に実行されてもよい。さらに、簡略化のために、添付の図面は、開示された方法が他の方法と併せて使用され得る、様々な方法を示さないことがある。
[0071] 開示された方法のうちのいずれかは、1つまたは複数のコンピュータ可読記憶媒体上に記憶され、コンピューティングデバイス(例えば、スマートフォン、またはコンピューティングハードウェアを含むその他のモバイルデバイスを含む、任意の利用可能なコンピューティングデバイス)上で実行される、コンピュータ実行可能命令またはコンピュータプログラム製品として実装され得る。コンピュータ可読記憶媒体は、コンピューティング環境内でアクセスされ得る、任意の利用可能な有形媒体(例えば、DVDもしくはCDなどの、1つまたは複数の光学媒体ディスク、揮発性メモリコンポーネント(DRAMもしくはSRAMなど)、または不揮発性メモリコンポーネント(フラッシュメモリもしくはハードドライブなど))である。例として、図9を参照すると、コンピュータ可読記憶媒体は、メモリ920および925、ならびに記憶装置940を含む。「コンピュータ可読記憶媒体」という用語は、信号および搬送波を含まない。さらに、「コンピュータ可読記憶媒体」という用語は、通信接続(例えば、970)を含まない。
[0072] 開示された技術を実装するためのコンピュータ実行可能命令のうちのいずれか、ならびに開示された実施形態の実装中に作成され、使用される任意のデータは、1つまたは複数のコンピュータ可読記憶媒体上に記憶され得る。コンピュータ実行可能命令は、例えば、専用ソフトウェアアプリケーション、または、ウェブブラウザもしくはその他のソフトウェアアプリケーション(リモートコンピューティングアプリケーションなど)を介してアクセスされ、もしくはダウンロードされる、ソフトウェアアプリケーションの一部であり得る。そのようなソフトウェアは、例えば、単一のローカルコンピュータ(例えば、任意の適当な市販のコンピュータ)上で、または、1つもしくは複数のネットワークコンピュータを使用する(例えば、インターネット、広域ネットワーク、ローカルエリアネットワーク、クライアントサーバネットワーク(クラウドコンピューティングネットワークなど)、またはその他のそのようなネットワークを介した)ネットワーク環境において、実行され得る。
[0073] 明確化のため、ソフトウェアベースの実装の、ある選択された態様のみについて、説明する。本技術分野において周知の他の詳細は、省略される。例えば、開示された技術は、いかなる特定のコンピュータ言語またはプログラムにも限定されないことを理解すべきである。例えば、開示された技術は、C++、Java(登録商標)、Perl、JavaScript(登録商標)、Adobe Flash、または任意の他の適当なプログラミング言語で書かれたソフトウェアによって実装され得る。同様に、開示された技術は、いかなる特定のコンピュータ、またはハードウェアの種類にも限定されない。適当なコンピュータおよびハードウェアのある詳細は、周知であり、本開示において詳細に記載する必要はない。
[0074] さらに、(例えば、開示した方法のうちのいずれかをコンピュータに実行させるための、コンピュータ実行可能命令を含む)ソフトウェアベースの実施形態のうちのいずれかは、適当な通信手段を通じてアップロードされ、ダウンロードされ、または遠隔アクセスされ得る。そのような適当な通信手段は、例えば、インターネット、ワールドワイドウェブ、イントラネット、ソフトウェアアプリケーション、ケーブル(光ファイバケーブルを含む)、磁気通信、電磁気通信(RF、マイクロ波、および赤外線通信を含む)、電子通信、または他のそのような通信手段を含む。
[0075] 開示された方法、装置、およびシステムは、どのようなかたちでも限定をするものとして解釈されるべきではない。むしろ、本開示は、単独での、ならびに相互の様々な組み合わせおよび部分的組み合わせでの、様々な開示した実施形態の、全ての新規かつ自明でない特徴および態様を対象とする。開示した方法、装置、およびシステムは、いかなる特定の態様もしくは特徴、またはそれらの組み合わせにも限定されず、開示した実施形態は、任意の1つもしくは複数の特定の利点が存在すること、または問題が解決されることを必要としない。
[0076] 任意の例からの技術は、他の例のうちの任意の1つまたは複数において説明される技術と組み合わされ得る。開示した技術の原理が適用され得る、多くの考えられる実施形態について、説明した実施形態は、開示した技術の例であると認識されるべきであり、開示した技術の範囲についての限定として取られるべきではない。むしろ、開示した技術の範囲は、以下の特許請求の範囲および思想によって包含されるものを含む。
Claims (15)
- デジタルパーソナルアシスタントを有するコンピューティングデバイスにおいて、デジタルパーソナルアシスタントの応答を提供する方法であって、
前記コンピューティングデバイス内の前記デジタルパーソナルアシスタントを用いて、対話を開始するユーザ入力を受信することであって、前記デジタルパーソナルアシスタントは、複数の反応型エージェントに関連付けられることと、
前記入力を受信することに応答して、前記コンピューティングデバイスの動作モードを、複数の利用可能な動作モードから検出することと、
前記受信した入力に基づいて、前記複数の反応型エージェントのうちの1つを選択することと、
前記選択された反応型エージェントに関連付けられた複数の応答文字列にアクセスすることと、
前記コンピューティングデバイスの前記動作モードおよび少なくとも1つのハードウェア特性に少なくとも基づいて、前記複数の応答文字列のうちの少なくとも1つを選択することと、
前記複数の応答文字列のうちの前記選択された少なくとも1つを、前記ユーザ入力に対する応答として前記対話の間に提供することと、を含む方法。 - 前記動作モードは、
音声専用動作モード、
やや注意散漫動作モード、
完全な使用中動作モード、および
表示制限動作モードのうちの1つである、請求項1に記載の方法。 - 前記動作モードおよび前記少なくとも1つのハードウェア特性に少なくとも一部基づいて、前記複数の応答文字列のうちの前記少なくとも1つについての提示モードを選択することと、
前記コンピューティングデバイスからの前記ユーザの距離、前記コンピューティングデバイス周辺の騒音レベル、および前記コンピューティングデバイスとの能動的な関与についての前記ユーザの現在の利用可能性のうちの少なくとも1つに基づいて、前記提示モードの選択を修正することと、をさらに含む、請求項1に記載の方法。 - 前記提示モードは、
前記複数の応答文字列のうちの前記選択された少なくとも1つの、テキスト音声表現の音声出力、前記複数の応答文字列のうちの前記選択された少なくとも1つの視覚的出力、および前記複数の応答文字列のうちの前記選択された少なくとも1つに関連する触覚的出力のうちの少なくとも1つを含む、請求項3に記載の方法。 - 前記コンピューティングデバイスに通信可能に連結される少なくとも1つの周辺デバイスを検出することと、
前記少なくとも1つの周辺デバイスの前記動作モードおよび少なくとも1つのハードウェア特性に少なくとも基づいて、前記複数の応答文字列のうちの少なくとも第2の1つを選択することと、
前記複数の応答文字列の前記選択された少なくとも第2の1つを、前記対話の間に前記少なくとも1つの周辺デバイスにおいて提供することと、をさらに含む、請求項1に記載の方法。 - 前記ユーザ入力は、音声入力であり、前記方法は、
前記音声入力に基づいて、前記デジタルパーソナルアシスタントの少なくとも1つの要求された機能を検出することと、
前記少なくとも1つの要求された機能を実行するために、前記複数の反応型エージェントのうちの前記1つを選択することと、をさらに含む、請求項1に記載の方法。 - プロセッサ、メモリ、およびマイクロフォンを含むコンピューティングデバイスであって、前記コンピューティングデバイスは、デジタルパーソナルアシスタントの応答を提供する方法を実行するように適合され、前記方法は、
デジタルパーソナルアシスタントによって、ユーザにより生成されたデジタル音声入力を受信することであって、前記デジタル音声入力は、前記マイクロフォンを介して受信されることと、
前記デジタル音声入力を受信することに応答して、前記コンピューティングデバイスの動作モードおよび少なくとも1つのハードウェア特性を検出することと、
前記デジタルパーソナルアシスタントのための反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも1つを選択することと、
前記複数の応答文字列のうちの前記少なくとも1つについての提示モードを選択することであって、前記複数の応答文字列のうちの前記少なくとも1つ、および前記提示モードを前記選択することは、前記動作モードおよび前記少なくとも1つのハードウェア特性に少なくとも基づくことと、
前記デジタル音声入力に対する応答として、前記複数の応答文字列のうちの前記少なくとも1つを、前記提示モードを用いて提供することと、を含む、コンピューティングデバイス。 - 前記動作モードは、音声専用動作モードであり、前記方法は、
テキスト音声(TTS)変換を用いて、前記複数の応答文字列のうちの前記少なくとも1つを、音声応答オーディオ出力に変換することと、
前記デジタル音声入力への前記応答として、前記音声応答オーディオ出力を提供することと、をさらに含む、請求項7に記載のコンピューティングデバイス。 - 前記動作モードは、やや注意散漫動作モード、および完全な使用中動作モードのうちの1つであり、前記方法は、
テキスト音声(TTS)変換を用いて、前記複数の応答文字列のうちの前記少なくとも1つを、音声応答オーディオ出力に変換することと、
前記デジタル音声入力に対する前記応答として、前記複数の応答文字列のうちの前記少なくとも1つの、前記音声応答オーディオ出力および表示出力のうちの1つまたは両方を提供することと、をさらに含む、請求項7に記載のコンピューティングデバイス。 - 前記動作モードは、表示制限動作モードであり、前記方法は、
前記デジタル音声入力に対する前記応答として、前記コンピューティングデバイスのディスプレイ上に、前記複数の応答文字列のうちの前記少なくとも1つを提供することをさらに含む、請求項7に記載のコンピューティングデバイス。 - 前記方法は、
ユーザ音声要求を判断するために、前記デジタル音声入力を使用して自然言語処理を実行することであって、前記ユーザ音声要求は、前記デジタルパーソナルアシスタントを用いて第1の対話を開始するための要求であることをさらに含む、請求項7に記載のコンピューティングデバイス。 - 前記方法は、
前記デジタルパーソナルアシスタントを用いて第2の対話を開始するための、別のデジタル音声入力を検出することと、
前記第2の対話開始時に、前記コンピューティングデバイスの前記動作モードおよび前記少なくとも1つのハードウェア特性のうちの少なくとも1つにおける変化を検出することと、
前記コンピューティングデバイスの前記動作モードおよび前記少なくとも1つのハードウェア特性のうちの少なくとも1つが前記第2の対話の開始時に変化したときに、前記動作モードおよび前記少なくとも1つのハードウェア特性のうちの前記変化した少なくとも1つに基づいて、前記複数の応答文字列のうちの前記少なくとも1つ、および前記提示モードの選択を更新することと、をさらに含む、請求項11に記載のコンピューティングデバイス。 - 実行時に、コンピュータシステムに、
前記コンピュータシステム上で実行中のアプリケーションによって、ユーザにより生成されたデジタル音声入力を受信させ、前記デジタル音声入力は、マイクロフォンを介して受信され、
ユーザ音声要求を判断するために、前記デジタル音声入力を使用して自然言語処理を実行させ、
前記ユーザ音声要求は、前記コンピュータシステム上で実行中の前記アプリケーションによって実行される1つまたは複数の機能に関連付けられ、
前記アプリケーションは、前記1つまたは複数の機能を実行するための1つまたは複数の反応型エージェントを含み、
前記1つまたは複数の機能を実行するための前記1つまたは複数の反応型エージェントのうちの1つを選択させ、
前記アプリケーションによって、前記コンピュータシステムの動作モードおよび少なくとも1つのハードウェア特性を識別する情報を要求させ、前記要求することが、API要求を使用し、
前記API要求に応答して、前記コンピュータシステムの前記動作モードおよび前記少なくとも1つのハードウェア特性を識別する前記要求された情報を受信させ、
前記選択されたサードパーティの反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも1つを選択させ、
前記複数の応答文字列のうちの前記少なくとも1つについての提示モードを選択させ、前記複数の応答文字列のうちの前記少なくとも1つおよび前記提示モードを前記選択することは、前記動作モードおよび前記少なくとも1つのハードウェア特性に少なくとも基づき、
前記ユーザ音声要求に対する応答として、前記複数の応答文字列のうちの前記少なくとも1つを、前記提示モードを用いて提供させる、命令を含む、コンピュータ可読記憶媒体。 - 前記命令は、実行時に、前記コンピュータシステムにさらに、
デジタルパーソナルアシスタント内の複数のネイティブ反応型エージェントを前記選択された反応型エージェントに提供させる、請求項13に記載のコンピュータ可読記憶媒体。 - 前記動作モードは、やや注意散漫動作モード、および完全な使用中動作モードのうちの1つであり、前記命令は、実行時に、前記コンピュータシステムにさらに、
テキスト音声(TTS)変換を用いて、前記複数の応答文字列のうちの前記少なくとも1つを、音声応答オーディオ出力に変換させ、
前記デジタル音声入力に対する前記応答として、前記複数の応答文字列のうちの前記少なくとも1つの、前記音声応答オーディオ出力および表示出力のうちの1つまたは両方を提供させる、請求項13に記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/580,093 US9690542B2 (en) | 2014-12-22 | 2014-12-22 | Scaling digital personal assistant agents across devices |
US14/580,093 | 2014-12-22 | ||
PCT/US2015/064166 WO2016105916A1 (en) | 2014-12-22 | 2015-12-07 | Scaling digital personal assistant agents across devices |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018509014A true JP2018509014A (ja) | 2018-03-29 |
Family
ID=55077620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017529078A Pending JP2018509014A (ja) | 2014-12-22 | 2015-12-07 | デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整 |
Country Status (11)
Country | Link |
---|---|
US (1) | US9690542B2 (ja) |
EP (1) | EP3238048A1 (ja) |
JP (1) | JP2018509014A (ja) |
KR (1) | KR102369605B1 (ja) |
CN (1) | CN107111492B (ja) |
AU (1) | AU2015370058A1 (ja) |
BR (1) | BR112017010388A2 (ja) |
CA (1) | CA2967996A1 (ja) |
MX (1) | MX2017008246A (ja) |
RU (1) | RU2017121803A (ja) |
WO (1) | WO2016105916A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019537805A (ja) * | 2016-09-07 | 2019-12-26 | サムスン エレクトロニクス カンパニー リミテッド | 外部デバイスを制御するサーバ及びその方法 |
WO2020022039A1 (ja) * | 2018-07-25 | 2020-01-30 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020140355A (ja) * | 2019-02-27 | 2020-09-03 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム、サーバ装置及びプログラム |
JP7491221B2 (ja) | 2018-11-22 | 2024-05-28 | ソニーグループ株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
US12008992B2 (en) | 2019-01-23 | 2024-06-11 | Sony Group Corporation | Generating dialog responses from dialog response frame based on device capabilities |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10446142B2 (en) * | 2015-05-20 | 2019-10-15 | Microsoft Technology Licensing, Llc | Crafting feedback dialogue with a digital assistant |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US11250217B1 (en) * | 2015-07-14 | 2022-02-15 | Soundhound, Inc. | Conditional responses to application commands in a client-server system |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11204787B2 (en) * | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10009666B1 (en) | 2017-05-16 | 2018-06-26 | Google Llc | Cross-device handoffs |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
JP7130201B2 (ja) * | 2018-01-18 | 2022-09-05 | 株式会社ユピテル | 装置及びプログラム等 |
KR102059142B1 (ko) * | 2018-01-23 | 2020-02-07 | 네이버 주식회사 | 서버 및 사용자 장치의 동작 방법 |
US20190258747A1 (en) * | 2018-02-22 | 2019-08-22 | General Electric Company | Interactive digital twin |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
JP7112487B2 (ja) * | 2018-05-11 | 2022-08-03 | 株式会社Nttドコモ | 対話装置 |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR102590914B1 (ko) * | 2018-12-14 | 2023-10-19 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
GB2582129B (en) * | 2019-02-05 | 2022-08-17 | Meizhou Guo Wei Electronics Co Ltd | DECT portable device base station |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
KR20210030646A (ko) * | 2019-09-10 | 2021-03-18 | 삼성전자주식회사 | 인공지능 비서를 선택하는 전자 장치 및 그 응답 제공 방법 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11538483B2 (en) * | 2020-03-25 | 2022-12-27 | Vmware, Inc. | Task redirection by a voice assistant |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11915691B2 (en) * | 2021-01-19 | 2024-02-27 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
US11995457B2 (en) | 2022-06-03 | 2024-05-28 | Apple Inc. | Digital assistant integration with system interface |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8196044B2 (en) * | 2004-01-05 | 2012-06-05 | Microsoft Corporation | Configuration of user interfaces |
US7961856B2 (en) * | 2006-03-17 | 2011-06-14 | At&T Intellectual Property I, L. P. | Methods, systems, and products for processing responses in prompting systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7965826B2 (en) * | 2006-12-08 | 2011-06-21 | Sony Corporation | Apparatus and method for collaborating between a video device and a telephonic device |
KR101554220B1 (ko) * | 2009-06-03 | 2015-09-21 | 삼성전자주식회사 | 휴대단말기의 근접 센서를 이용한 데이터 출력 방법 및 장치 |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10705794B2 (en) * | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
CN102651753B (zh) * | 2011-02-25 | 2016-04-27 | 国际商业机器公司 | 与平台无关的信息处理***及其通信方法 |
US9542956B1 (en) * | 2012-01-09 | 2017-01-10 | Interactive Voice, Inc. | Systems and methods for responding to human spoken audio |
US20130246920A1 (en) * | 2012-03-19 | 2013-09-19 | Research In Motion Limited | Method of enabling voice input for a visually based interface |
US9280610B2 (en) * | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9547647B2 (en) * | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US20140095168A1 (en) * | 2012-10-01 | 2014-04-03 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US20140095171A1 (en) * | 2012-10-01 | 2014-04-03 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US20140095172A1 (en) * | 2012-10-01 | 2014-04-03 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US9392088B2 (en) * | 2013-01-09 | 2016-07-12 | Lenovo (Singapore) Pte. Ltd. | Intelligent muting of a mobile device |
US20140218372A1 (en) * | 2013-02-05 | 2014-08-07 | Apple Inc. | Intelligent digital assistant in a desktop environment |
KR20230137475A (ko) * | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10783139B2 (en) * | 2013-03-06 | 2020-09-22 | Nuance Communications, Inc. | Task assistant |
US20140253455A1 (en) * | 2013-03-06 | 2014-09-11 | Nuance Communications, Inc. | Task assistant providing contextual suggestions |
US10133546B2 (en) * | 2013-03-14 | 2018-11-20 | Amazon Technologies, Inc. | Providing content on multiple devices |
AU2014233517B2 (en) * | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
US20150193102A1 (en) * | 2014-01-08 | 2015-07-09 | Microsoft Corporation | Multi-mode display system |
US20160027019A1 (en) * | 2014-07-28 | 2016-01-28 | Yonyx, Inc. | Systems and methods for generating workflow reports |
-
2014
- 2014-12-22 US US14/580,093 patent/US9690542B2/en active Active
-
2015
- 2015-12-07 WO PCT/US2015/064166 patent/WO2016105916A1/en active Application Filing
- 2015-12-07 JP JP2017529078A patent/JP2018509014A/ja active Pending
- 2015-12-07 RU RU2017121803A patent/RU2017121803A/ru not_active Application Discontinuation
- 2015-12-07 KR KR1020177017102A patent/KR102369605B1/ko active IP Right Grant
- 2015-12-07 CN CN201580070194.5A patent/CN107111492B/zh active Active
- 2015-12-07 EP EP15821188.8A patent/EP3238048A1/en not_active Ceased
- 2015-12-07 AU AU2015370058A patent/AU2015370058A1/en not_active Abandoned
- 2015-12-07 CA CA2967996A patent/CA2967996A1/en not_active Abandoned
- 2015-12-07 BR BR112017010388A patent/BR112017010388A2/pt not_active Application Discontinuation
- 2015-12-07 MX MX2017008246A patent/MX2017008246A/es unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019537805A (ja) * | 2016-09-07 | 2019-12-26 | サムスン エレクトロニクス カンパニー リミテッド | 外部デバイスを制御するサーバ及びその方法 |
JP7038719B2 (ja) | 2016-09-07 | 2022-03-18 | サムスン エレクトロニクス カンパニー リミテッド | 外部デバイスを制御するサーバ及びその方法 |
US11482227B2 (en) | 2016-09-07 | 2022-10-25 | Samsung Electronics Co., Ltd. | Server and method for controlling external device |
WO2020022039A1 (ja) * | 2018-07-25 | 2020-01-30 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JPWO2020022039A1 (ja) * | 2018-07-25 | 2021-08-02 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7444060B2 (ja) | 2018-07-25 | 2024-03-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7491221B2 (ja) | 2018-11-22 | 2024-05-28 | ソニーグループ株式会社 | 応答生成装置、応答生成方法及び応答生成プログラム |
US12008992B2 (en) | 2019-01-23 | 2024-06-11 | Sony Group Corporation | Generating dialog responses from dialog response frame based on device capabilities |
JP2020140355A (ja) * | 2019-02-27 | 2020-09-03 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム、サーバ装置及びプログラム |
JP7229043B2 (ja) | 2019-02-27 | 2023-02-27 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160179464A1 (en) | 2016-06-23 |
CA2967996A1 (en) | 2016-06-30 |
KR102369605B1 (ko) | 2022-03-02 |
CN107111492B (zh) | 2020-11-24 |
RU2017121803A (ru) | 2018-12-21 |
BR112017010388A2 (pt) | 2017-12-26 |
MX2017008246A (es) | 2017-10-06 |
EP3238048A1 (en) | 2017-11-01 |
KR20170099903A (ko) | 2017-09-01 |
US9690542B2 (en) | 2017-06-27 |
WO2016105916A1 (en) | 2016-06-30 |
AU2015370058A1 (en) | 2017-05-25 |
CN107111492A (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102369605B1 (ko) | 장치들에 걸쳐 디지털 개인 비서 에이전트를 스케일링하기 위한 기법 | |
US10491949B2 (en) | Bullet screen posting method and mobile terminal | |
KR102490776B1 (ko) | 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법 | |
US20160202957A1 (en) | Reactive agent development environment | |
JP6125088B2 (ja) | 複数のデバイス上でコンテンツを提供すること | |
US9002699B2 (en) | Adaptive input language switching | |
US9172905B2 (en) | Mobile device and method for messenger-based video call service | |
KR102089638B1 (ko) | 전자장치의 음성 녹음 방법 및 장치 | |
EP3241213A2 (en) | Discovering capabilities of third-party voice-enabled resources | |
KR20170115501A (ko) | 크라우드 소싱에 기초해서 디지털 퍼스널 어시스턴트에 대한 언어 이해 분류기 모델을 업데이트하는 기법 | |
KR20170130512A (ko) | 비디오 스트림의 데이터를 프로세싱하기 위한 방법, 단말, 및 시스템 | |
KR20130132765A (ko) | 상태-종속 쿼리 응답 | |
CN109240785B (zh) | 一种设置语言的方法、终端及存储介质 | |
US10097591B2 (en) | Methods and devices to determine a preferred electronic device | |
KR20170060782A (ko) | 전자 장치 및 전자 장치의 통화 서비스 제공 방법 | |
EP2698787A2 (en) | Method for providing voice call using text data and electronic device thereof | |
KR20120002766A (ko) | 휴대 단말기의 위치 기반 말풍선 서비스 이용방법, 장치 및 이를 이용한 시스템 | |
WO2015014138A1 (zh) | 一种显示框显示的方法、装置和设备 | |
US20150089370A1 (en) | Method and device for playing media data on a terminal | |
WO2015117550A1 (en) | Method and apparatus for acquiring reverberated wet sound | |
US20160127441A1 (en) | Application level audio connection and streaming |