JP2018509014A

JP2018509014A - デバイスにわたる、デジタルパーソナルアシスタントエージェントの調整

Info

Publication number: JP2018509014A
Application number: JP2017529078A
Authority: JP
Inventors: レディ，マウンイー; セナカナン，ヴィシュワク; ユーゼラック，アレクサンダー; ジェイ．ウォン，ダニエル; ローズサバー，モリー; ジョイスティフェルマン，リサ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-12-22
Filing date: 2015-12-07
Publication date: 2018-03-29
Also published as: US20160179464A1; CA2967996A1; KR102369605B1; CN107111492B; RU2017121803A; BR112017010388A2; MX2017008246A; EP3238048A1; KR20170099903A; US9690542B2; WO2016105916A1; AU2015370058A1; CN107111492A

Abstract

デジタルパーソナルアシスタントの応答を提供する方法は、複数の反応型エージェントに関連付けられたデジタルパーソナルアシスタントによって、コンピュータデバイス内のデジタルパーソナルアシスタントを用いて対話を開始するユーザ入力を受信することを含んでもよい。入力を受信することに応答して、コンピューティングデバイスの動作モードは、複数の利用可能な動作モードから検出されてもよい。複数の反応型エージェントのうちの１つは、受信した入力に基づいて選択され得る。選択された反応型エージェントに関連付けられた複数の応答文字列は、アクセスされ得る。コンピューティングデバイスの動作モードおよび少なくとも１つのハードウェア特性に少なくとも基づいて、複数の応答文字列のうちの少なくとも１つが、選択される。複数の応答文字列のうちの選択された少なくとも１つが、ユーザ入力に対する応答として、会話の間に提供している。

Description

[0001] コンピューティング技術が進歩するにつれて、益々強力なモバイルデバイスが、利用できるようになってきている。例えば、スマートフォンおよびその他のコンピューティングデバイスは、ありふれたものになっている。そのようなデバイスの処理ケイパビリティは、デジタルパーソナルアシスタントに関する機能など、様々な種類の機能の開発をもたらしている。

[0002] 様々なモバイルデバイス内に実装されているデジタルパーソナルアシスタントは、ユーザの質問または音声コマンドに応答することが可能な、インタラクティブかつ組み込みの会話理解力を有する。しかし、デジタルパーソナルアシスタントからのそのような応答は、使用されているデバイスの種類によっては、いつも適切であるとは限らないことがある。いくつかのデバイスは、例えば、タッチスクリーンを有しないことがあり、ユーザにスクリーン上のボタンをタッチまたは押下するよう命令する応答が、実行できないことがある。

[0003] 本概要は、詳細な説明においてさらに後述する概念の抜粋を、簡潔な形式で導入するために提供される。本概要は、特許請求された主題の重要な特徴または本質的特徴を特定することを意図するものではなく、特許請求された主題の範囲を限定するために使用されることを意図するものでもない。

[0004] １つまたは複数の態様によれば、デジタルパーソナルアシスタントの応答を提供する方法は、複数の反応型エージェントに関連付けられたデジタルパーソナルアシスタントによって、コンピューティングデバイス内のデジタルパーソナルアシスタントを用いて対話を開始するユーザ入力を受信することを含んでもよい。入力を受信することに応答して、コンピューティングデバイスの動作モードは、複数の利用可能な動作モードから検出されてもよい。複数の反応型エージェントのうちの１つは、受信した入力に基づいて選択され得る。選択された反応型エージェントに関連付けられた複数の応答文字列は、アクセスされ得る。コンピューティングデバイスの動作モードおよび／または少なくとも１つのハードウェア特性に少なくとも基づいて、複数の応答文字列のうちの少なくとも１つが、選択される。複数の応答文字列のうちの選択された少なくとも１つが、ユーザ入力に対する応答として、会話の間に提供される。

[0005] １つまたは複数の態様によれば、プロセッサ、メモリ、およびマイクロフォンを含むコンピューティングデバイスは、デジタルパーソナルアシスタントの応答を提供する方法を実行するように適合されてもよい。方法は、デジタルパーソナルアシスタントによって、ユーザにより生成された入力（例えば、テキスト、音声、触覚など）を受信することを含み、ここで、入力は、（デジタル音声入力の例では）マイクロフォンを介して受信され得る。入力を受信することに応答して、コンピューティングデバイスの動作モードおよび／または少なくとも１つのハードウェア特性が検出される。デジタルパーソナルアシスタントのための反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも１つ、および複数の応答文字列のうちの少なくとも１つについての提示モードが、選択される。複数の応答文字列のうちの少なくとも１つおよび提示モードを選択することは、動作モードおよび／または少なくとも１つのハードウェア特性に少なくとも基づいてもよい。デジタル音声入力に対する応答として、複数の応答文字列のうちの少なくとも１つが、提示モードを用いて提供されてもよい。

[0006] １つまたは複数の態様によれば、コンピュータ可読記憶媒体は、実行時に、コンピュータシステムに、コンピュータシステム上で実行中のサードパーティアプリケーションによって、ユーザにより生成された入力を受信させる命令を含んでもよい。入力は、デジタル音声入力、例えば、タイピングによって受信されるテキスト入力、および／または任意の他のユーザ入力（例えば、触覚入力）を含んでもよい。デジタル音声入力は、マイクロフォンを介して受信されてもよい。マイクロフォンは、コンピュータシステム内の組み込みマイクロフォン、有線接続を介してコンピュータシステムに接続され（取り付けられ）得る、着脱可能なマイクロフォン、コンピュータシステムに無線で連結されるリモートリスニングデバイス（例えば、マイクロフォンを有するBluetooth（登録商標）ヘッドセット）、ならびに／またはマイクロフォンケイパビリティおよび／もしくはスピーカケイパビリティを有するコンパニオンデバイス（例えば、スマートウォッチ）であり得る。デジタル音声入力が使用される場合、デジタル音声入力を使用する自然言語処理は、ユーザ音声要求を判断するために実行される。ユーザ音声要求は、コンピュータシステム上で実行中のアプリケーションによって実行される、１つまたは複数の機能に関連付けられる。アプリケーションは、１つまたは複数の機能を実行するための１つまたは複数の反応型エージェントを含む。１つまたは複数の機能を実行するために、１つまたは複数の反応型エージェントのうちの１つが選択され得る。コンピュータシステムの動作モードおよび少なくとも１つのハードウェア特性を識別する情報が、アプリケーションによって要求され、要求することは、ＡＰＩ要求を使用する。ＡＰＩ要求に応答して、コンピュータシステムの動作モードおよび／または少なくとも１つのハードウェア特性を識別する情報が、受信される。選択されたサードパーティの反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも１つ、および複数の応答文字列のうちの少なくとも１つについての提示モードが、選択される。複数の応答文字列のうちの少なくとも１つおよび提示モードを選択することは、動作モードおよび／または少なくとも１つのハードウェア特性に少なくとも基づく。ユーザ音声要求に対する応答として、複数の応答文字列のうちの少なくとも１つが、提示モードを用いて提供され得る。

[0007] 本明細書で説明するように、様々な他の特徴および利点が、所望により、技術に組み込まれ得る。

[0008]本開示の実施形態の例による、異なるデバイスケイパビリティを有するコンピューティングデバイスにわたって、デジタルパーソナルアシスタントエージェントを調整するためのアーキテクチャの例を示す、ブロック図である。 [0009]本開示の実施形態の例による、図１のアーキテクチャにおいて用いられる調整サービスを有する反応型エージェントの例を示す、ブロック図である。 [0010]本開示の実施形態の例による、デバイス動作モードおよび対応する出力文字列の例を有する表を示すブロック図である。 [0011]本開示の実施形態の例による、調整され得るアプリケーション反応型エージェントを用いるコンピューティングデバイスのブロック図である。 [0012]１つまたは複数の実施形態による、デバイスにわたってデジタルパーソナルアシスタントエージェントを調整することを示すフロー図である。１つまたは複数の実施形態による、デバイスにわたってデジタルパーソナルアシスタントエージェントを調整することを示すフロー図である。１つまたは複数の実施形態による、デバイスにわたってデジタルパーソナルアシスタントエージェントを調整することを示すフロー図である。 [0013]本明細書で説明するイノベーションが、併せて実装され得るモバイルコンピューティングデバイスの例を示すブロック図である。 [0014]いくつかの説明される実施形態が実装され得る、コンピューティングシステムの例の図である。

[0015] 本明細書で説明するように、様々な技術および解決手段が、デバイスにわたってデジタルパーソナルアシスタントの反応型エージェントを調整するために適用され得る。より具体的には、ユーザ入力（例えば、音声制御されたデジタルパーソナルアシスタントに対する音声入力、タイプされた入力などのテキスト入力、触覚入力など）を検出すると、反応型エージェントが、デバイス機能に関連付けられ、ユーザ入力によって引き起こされるタスクを実行することを支援するために選択されてもよい。デジタルパーソナルアシスタント（または、エージェント）は、次いで、ユーザ入力に応答して開始される音声応答対話をカスタマイズするために、現在のデバイス動作モード、および１つまたは複数のデバイスケイパビリティ（例えば、ハードウェア特性などの、１つまたは複数のデバイス特徴または特性）を使用してもよい。応答文字列は、デバイス動作モード、および／または１つもしくは複数のデバイスケイパビリティに基づいて選択されてもよい。追加的に、応答文字列を提示するための提示モード（例えば、音声専用、表示専用、音声／表示の組み合わせ、応答文字列の詳細度、など）は、また、デバイス動作モード、および／または１つもしくは複数のデバイスケイパビリティに基づいてカスタマイズされてもよい。この点において、デバイス種類のハードウェアケイパビリティ、およびユーザがデジタルパーソナルアシスタントと対話する際にどのように関与しているかを用いて（例えば、デバイス動作モードに基づいて）、デジタルパーソナルアシスタントは、より適切かつ効率的な応答エクスペリエンスを提供して、特定の動作モードで使用されている特定のデバイスに適合させる。

[0016] 本明細書で使用されるように、「反応型エージェント」という用語は、デバイス機能に関連付けられる１つまたは複数の応答対話（例えば、音声、テキスト、および／または触覚的応答）を実装するために、デジタルパーソナルアシスタントによって使用され得るデータ／コマンド構造をいう。デバイス機能（例えば、電子メール、メッセージなど）は、デジタルパーソナルアシスタントへのユーザ入力（例えば、音声コマンド）によってアクティブ化されてもよい。反応型エージェント（または、エージェント）は、音声エージェント定義（voice agent definition:VAD）または反応型エージェント定義（reactive agent definition:RAD）ＸＭＬ文書、および対話を通じてエージェントを駆動するために使用されるプログラミングコード（例えば、C++コード）を用いて定義され得る。

[0017] 図１は、本開示の実施形態の例による、異なるデバイスケイパビリティを有するコンピューティングデバイスにわたって、デジタルパーソナルアシスタントエージェントを調整するためのアーキテクチャ１００の例を示す、ブロック図である。図１を参照すると、アーキテクチャ１００は、コンピューティングデバイス１０２、．．．、１０４を含んでもよく、各コンピューティングデバイスは、それぞれ１２０、．．．、１２１などの特定のデバイスケイパビリティ（または特性）を有する。コンピューティングデバイス１０２、．．．、１０４は、デスクトップコンピュータ、ラップトップコンピュータ、ネットブック、タブレットコンピュータ、スマートフォン、またはオペレーティングシステム（例えば、１０６、．．．、１０７）、およびデジタルパーソナルアシスタント１０８（音声制御されるデジタルパーソナルアシスタントであってもよい）を実行可能なその他のコンピューティングデバイスを含み得る。デジタルパーソナルアシスタント１０８は、コンピューティングデバイス１０２上にインストールされているものとして図示されるが、本開示は、この点について限定されない。例えば、コンパニオンデバイス（例えば、スマートウォッチ）が、デジタルパーソナルアシスタントがインストールされている別のデバイス（例えば、電話）と通信してもよい。この場合、コンパニオンデバイスが、そのデバイス上にインストールされたデジタルパーソナルアシスタントを有しないとしても、第２のデバイス（即ち、電話）上にインストールされたデジタルパーソナルアシスタントによって提供される情報（例えば、応答文字列）に依存することによって、本明細書で説明する機能をやはり利用してもよい。デジタルパーソナルアシスタントは、また、クラウド環境内のサーバの一部であってもよく、サーバは、クラウド環境内の複数の他のデバイスによってアクセス可能であってもよい。

[0018] コンピューティングデバイス１０２、．．．、１０４のそれぞれは、デジタルパーソナルアシスタント（DPA）１０８を使用してもよい。ＤＰＡ１０８は、適当なロジック、回路、インターフェース、および／またはコードを含んでもよく、ＲＡ１１０、．．．、１１４などの１つまたは複数の反応型エージェント（RA）を使用するように動作可能であってもよい。ＲＡは、１つまたは複数の機能を実行するために使用されてもよく、１つまたは複数の機能は、ＤＰＡ１０８へのユーザ入力（例えば、音声入力）によって、引き起こされてもよい。例えば、ＲＡ１１０は、電子メールエージェントであってもよく、電子メールエージェントは、ユーザの音声コマンドに基づいて、新たな電子メールウィンドウを開き、音声入力に基づいて電子メールを作成し、音声入力により指定される電子メールアドレスに電子メールを送信するために使用されてもよい。ＲＡ１１０、．．．、１１４は、また、ユーザ入力に基づいてＤＰＡ１０８を用いて開始される対話セッション中に、１つまたは複数の応答（例えば、音声／ビデオ／触覚的応答）を提供するために使用されてもよい。より具体的には、ＲＡ１１０、．．．、１１４およびＤＰＡ１０８は、モード／デバイスに適した応答（MDAR）１２６、．．．、１３０、および１３２、．．．、１３６を取得するための調整サービス１１６を使用してもよい。ＭＤＡＲは、デバイス動作モード、および／または１つもしくは複数のデバイス特性／ケイパビリティに基づいて選択される応答（応答文字列など）であり得る。

[0019] 実装例では、そのような応答のための応答文字列および／または提示モードの選択は、デバイスからのユーザの距離、ユーザの姿勢（例えば、横になっている、座っている、または立っている）、ユーザの周囲の社会環境についての知識（例えば、他のユーザが存在する）、騒音レベル、および現在のユーザ活動（例えば、ユーザが能動的に会話している、または身体活動を行っている）などの、他の要因にさらに基づき得る。例えば、コンピューティングデバイスとの能動的な関与についてのユーザの現在の利用可能性は、ユーザの現在の活動についての知識に基づいて判断されてもよい（例えば、ユーザの声を検出することによって、ユーザが現在会話に参加していることをデバイスが検出してもよく、ユーザが身体活動を示して活発に動いており、したがって、ユーザがデバイス画面を見ることができないことをデバイスが検出してもよく、ユーザが動いていないことを示す動きがないことで、デバイスとの完全な関与が可能であることをデバイスが検出してもよい）。

[0020] デバイスからのユーザの距離は、例えば、ユーザがスピーカフォンを介してデバイスと通信するときの受信信号強度に基づいて判断されてもよい。ユーザが閾値距離を越えると判断される場合、デバイスは、画面がユーザに見えず、したがって利用できないと考えてもよい。この例では、ＭＤＡＲが選択されてもよく、適切な提示モードが、さらに修正されてもよい（例えば、音声専用提示モードが選択されてもよい）。

[0021] 調整サービス１１６は、適当なロジック、回路、インターフェース、および／またはコードを含んでもよく、デバイス動作モード情報（例えば、１１８、．．．、１１９）および／またはデバイスケイパビリティ（もしくは、デバイス特性）情報（例えば、１２０、．．．、１２１）に基づいて、ＭＤＡＲ１２６、．．．、１３０を生成するように動作可能であってもよい。より具体的には、調整サービス１１６は、現在アクティブ（例えば、ユーザがＤＰＡ１０８を使用して対話中）である反応型エージェントを判断してもよく、反応型エージェントに関連付けられた複数の応答文字列（または、例えば図２に示すような利用可能な対話応答）にアクセスしてもよい。次いで、調整サービス１１６は、デバイス動作モード１１８および／またはデバイスケイパビリティ１２０に基づいて、（例えば、適切な応答を選択することによって）応答を調整してもよい。例えば、コンピューティングデバイス１０２および１０４は、異なるデバイスケイパビリティ／特性（１２０および１２１、例えば、異なるデバイスフォームファクタ）を有してもよい。この場合、調整サービス１１６は、同一の反応型エージェント１１０、．．．、１１４それぞれに対して異なるモード／デバイスに適した応答１３２、．．．、１３６を選択することになる。デバイス動作モード１１８および／またはデバイスケイパビリティ１２０が利用可能でない場合、既定値応答（例えば、図２の２０２）が選択されてもよい。

[0022] 調整サービス１１６は、ＲＡおよびＤＰＡ１０８から分離されて図示されているが、本開示は、この点について限定されなくともよい。実施形態の例では、調整サービスは、反応型エージェントのうちの１つもしくは複数の一部として、および／またはデジタルパーソナルアシスタント１０８の一部として実装されてもよい。追加的に、反応型エージェント１１０、．．．、１１４が、ネイティブエージェント（即ち、コンピューティングデバイス１０２、．．．、１０４内に実装されている）として図示されているとしても、反応型エージェントのうちの１つまたは複数は、コンピューティングデバイスの外部（例えば、１つまたは複数の通信ネットワークを介してコンピューティングデバイス１０２、．．．、１０４によってアクセス可能な、クラウド環境のサーバコンピュータ内）に実装されてもよい。

[0023] 図２は、本開示の実施形態の例による、図１のアーキテクチャにおいて用いられる調整サービスを有する反応型エージェントの例を示す、ブロック図である。図２を参照すると、反応型エージェント２００の例は、（図１に示した）デジタルパーソナルアシスタント１０８に関連付けられた反応型エージェントである。調整サービス１１６は、反応型エージェント２００から分離されて実装され、応答データベース２１２およびユーザインターフェース（U/I）エンジン２１４に通信可能に連結される。

[0024] 調整サービス１１６は、また、音声プラットフォーム２１１を含んでもよく、音声プラットフォーム２１１は、適当なロジック、回路、インターフェース、および／またはコードを含んでもよく、情報の音声テキスト処理、およびテキスト音声処理を実行するように動作可能であってもよい。音声プラットフォーム２１１は、任意選択により、調整サービス１１６の外部に実装されてもよい。コンピューティングデバイス１０２上で実行中の１つまたは複数のアプリケーション（例えば、図４のアプリケーション４０２などのサードパーティアプリケーション）は、デジタルパーソナルアシスタント１０８同様、音声プラットフォーム２１１を用いて、調整サービス１１６、および反応型エージェント１１０、．．．、１１４のうちの１つまたは複数とやり取りしてもよい。この点において、音声プラットフォーム２１１は、デバイス１０２および／またはＤＰＡ１０８のための反応型エージェントとの通信を抽出してもよい。デバイスモード情報２１０および／またはデバイスケイパビリティ情報２０８は、最初に、音声プラットフォーム２１１に提供され、次いで、調整サービス１１６に伝達されて、モード／デバイスに適した応答をデータベース２１２から取得する際に使用されてもよい。

[0025] 動作において、ユーザは、ユーザ入力を提供することによって、デジタルパーソナルアシスタント１０８で対話を開始してもよい。入力は、デジタル音声入力、例えば、タイピングによって受信される、テキスト入力、および／または任意の他のユーザ入力（例えば、触覚入力）を含んでもよい。デジタル音声入力は、マイクロフォンを介して受信されてもよい。マイクロフォンは、コンピューティングデバイス内の組み込みマイクロフォン、有線接続を介してコンピュータシステムに接続され（取り付けられ）得る、着脱可能なマイクロフォン、コンピュータシステムに無線で連結されるリモートリスニングデバイス（例えば、マイクロフォンを有するBluetoothヘッドセット）、ならびに／またはマイクロフォンケイパビリティおよび／もしくはスピーカケイパビリティを有するコンパニオンデバイス（例えば、スマートウォッチ）であり得る。デジタル音声入力が使用される場合、デジタル音声入力を使用する（例えば、音声プラットフォーム２１１による）自然言語処理は、ユーザ音声要求を判断するために実行される。ユーザ音声要求は、デジタルパーソナルアシスタントおよび／またはコンピューティングデバイス上で実行中のアプリケーションによって実行される、１つまたは複数の機能に関連付けられてもよい。デジタルパーソナルアシスタントおよび／またはアプリケーションは、１つまたは複数の機能を実行するための１つまたは複数の反応型エージェント（例えば、反応型エージェント２００）を含んでもよい。

[0026] 現在のデバイス動作モード２１０および／またはデバイスケイパビリティ／特性情報２０８が、音声プラットフォーム２１１および調整サービス１１６に通信されてもよい。デバイスケイパビリティ／特性情報２０８は、ディスプレイ解像度、ディスプレイの種類／サイズ、ディスプレイの可用性、音声能力（例えば、マイクロフォンの可用性、スピーカの可用性）、Ｂｌｕｅｔｏｏｔｈの可用性、および／またはコンピューティングデバイスに関するデバイスフォームファクタのうちの１つまたは複数を含んでもよい。

[0027] 例えば、ディスプレイの種類は、フルディスプレイタイプ（応答文字列／回答のサイズについてほとんどまたは全く制限がない）、拡張ディスプレイタイプ（一次デバイスディスプレイではない第２の／追加のディスプレイを含んでもよく、それによって、利用可能なディスプレイのそれぞれについて、応答文字列の複数のバージョンが使用され得る）、限られた／小さなディスプレイタイプ（タッチスクリーンケイパビリティのない携帯電話、ウェアラブルデバイスなどの、小さなディスプレイを有するデバイス）、およびディスプレイのないデバイス（デバイスが、いかなるディスプレイも持たず、音声ケイパビリティのみを有する）を含んでもよい。

[0028] 音声能力は、テキスト音声（TTS）の可用性（デバイスが、ユーザ情報を与えることに役立つ音声を出力できる）、ＴＴＳ可用性がない（デバイスにサウンド／スピーカ能力がない、またはユーザがスピーカをミュートにしている）、およびイアコンのみの可用性（例えば、デバイスが、イアコン（またはビープ音）などの限られた音を発生させ得る）を含んでもよい。

[0029] 図３は、本開示の実施形態の例による、デバイス動作モードおよび対応する出力文字列の例を有する表を示すブロック図である。図３を参照すると、デバイス動作モード３１０の例が、対応する表示出力文字列３１２および／または音声出力文字列３１４とともに、表にされている。

[0030] デバイス動作モード３１０は、音声専用モード３１６、完全な使用中モード３２２、やや注意散漫モード３２８、および表示制限モード３３４を含み得る。４つの動作モード（３１６、３２２、３２８、および３３４）のみが、図３に示されているが、本開示は、この点について限定されず、他の動作モードおよびデバイスの種類もまた、本明細書で開示する技術とともに使用されてもよい。音声専用モード３１６は、コンピューティングデバイスが、物理的ディスプレイ面を有しないとき、またはデバイスディスプレイが利用できない（例えば、主ディスプレイが接続されておらず、２次ディスプレイがアクティブである）ときに、使用されてもよい。一次ディスプレイが、非アクティブで、２次ティスプレイがアクティブである場合、詳細な表示文字列３１８が、出力として提示されてもよい。詳細なＴＴＳ文字列３２０もまた、（例えば、スピーカを介して）提示されてもよい。

[0031] 完全な使用中モード３２２は、ユーザが物理的にデバイスの隣（正面）にいて、ユーザが、デバイスに完全に関与している可能性が高い（例えば、ユーザが、デスクトップコンピュータまたはラップトップの正面にいる）ときに使用されてもよい。この場合、詳細度の低い表示文字列３２４が、表示されてもよく、および／または短いＴＴＳ文字列３２６が、音声出力３１４として提示されてもよい。

[0032] やや注意散漫モード３２８は、ユーザが、コンピューティングデバイスの周辺にいるが、ユーザが、デバイスに完全には関与していない（例えば、ユーザが運転中であり、デジタルパーソナルアシスタントを有するユーザの携帯電話がユーザの隣にある）ときに、使用されてもよい。この場合、詳細度の低い表示文字列３３０が、表示されてもよく、および／または詳細度が中程度のＴＴＳ文字列３３２が、音声出力３１４として提示されてもよい。

[0033] 表示制限モード３３４は、コンピューティングデバイスが、限られた表示面を有する２次／周辺デバイスであるときに使用されてもよい。この場合、短い表示文字列３３６が、出力文字列３１２として表示されてもよい。

[0034] 表示および音声文字列の概要は、本明細書で以下に提供される。

[0035] 詳細な表示文字列は、回答として提供される情報を素早く要約するように意図されたテキスト文字列であってもよい。詳細な表示文字列は、回答として期待され得る完全な情報を提供してもよく、または提供しなくてもよい。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、領域は制限されないが音がオフであるディスプレイ、音がミュートである、またはオーディオがないデスクトップ、電子看板、テキスト専用能力を有するスクロール可能な小型画面、および／またはウェアラブルデバイス用の拡張ディスプレイで、使用されてもよい。

[0036] 短い詳細な文字列は、テキスト文字列（例えば、多くとも１００文字）であってもよく、言語において制限のある人をサポートしてもよく、実用的な適用により適している。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、スマートウォッチなどのウェアラブルデバイス、サーモスタット、スマート計算器、オーブン、冷蔵庫などで使用されてもよい。

[0037] 詳細度の低い表示文字列は、デジタルパーソナルアシスタントを用いたユーザエクスペリエンスに対する補助文字列であるテキスト文字列であってもよく、文字列は、本質的でない情報を伝達するために使用されてもよい。この種類の表示文字列は、デバイスフォームファクタまたは動作モードの以下の例、電話（ユーザが現在デバイス画面を見ている時）、デスクトップコンピュータ、スマートデバイス／表示ケイパビリティを有する自動車、ゲームコンソールなどで使用されてもよい。

[0038] 詳細なＴＴＳ音声文字列は、デジタルパーソナルアシスタントを用いた対話中に回答として提供される情報を素早く要約するように意図された応答文字列であってもよい。この種類の音声ＴＴＳ文字列は、デバイスフォームファクタまたは動作モードの以下の例、音声専用モードのコンピューティングデバイス、運転中に使用されるコンピューティングデバイス（運転中の使用が検出される場合に、デバイスが自動的に音声専用モードに切り替わってもよい）、旧世代のスマートデバイスまたはスマートフォンケイパビリティを有しないモバイルデバイスなどで使用されてもよい。

[0039] 詳細度が中程度のＴＴＳ音声文字列は、有用な応答情報を提供してもよく、応答文字列が、音声専用モード中に提供される応答文字列と同程度の詳細度である必要はない。この種類の音声ＴＴＳ文字列は、デバイスフォームファクタまたは動作モードの以下の例、注意散漫なユーザによって使用されるコンピューティングデバイス（例えば、ユーザが別のデバイスを使用しており、ユーザの携帯電話がユーザの隣のテーブルに置いてある）で使用されてもよい。

[0040] 短いＴＴＳ音声文字列（または、イアコンのみ）は、非常に短い読み出しを提供してもよい。この種類の音声ＴＴＳ文字列は、デバイスフォームファクタまたは動作モードの以下の例、ゲームコンソール、ＴＶ、デスクトップコンピュータなどで使用されてもよい。

[0041] 再び図２を参照して、音声プラットフォーム２１１が、デバイスケイパビリティ情報２０８および動作モード情報２１０を受信した後、この情報は、応答データベース２１２にアクセスし、ＭＤＡＲ２０４、．．．、２０６などの１つまたは複数のモード／デバイスに適した応答２１８を取得するために使用される。追加的に、コンピューティングデバイス１０２が、第２のディスプレイ（または、表示／音声／触覚ケイパビリティを有する別の周辺デバイス）を使用する場合、第２の応答文字列２２０は、また、反応型エージェント２００に返され、次いで周辺デバイスへと通信されてもよい（データベース２１２から周辺デバイスへの直接通信も可能）。追加的に、調整サービス１１６は、ユーザインターフェースエンジン２１４を使用して、Ｕ／Ｉ（例えば、HTML U/I）２２２を生成してもよい。Ｕ／Ｉ２２２は、デバイスフォームファクタおよび／または他のデバイスケイパビリティ（例えば、ケイパビリティ／特性２０８）に対して最適化される。

[0042] 実施形態の例では、反応型エージェント２００は、複数デバイスと関連して使用されてもよい。例えば、一方のデバイスが一次デバイスであり、他方のデバイスが２次／コンパニオンデバイスである、２つのコンピューティングデバイスが共同して動作してもよい。この場合、エージェント（例えば、２００）は、各デバイスの種類／モードにつき１つの、２つの応答（例えば、２０４および２０６）を生成してもよい。

[0043] デバイス動作モード情報２１０（および／またはデバイスケイパビリティ２０８のうちの１つもしくは複数）を調整サービス１１６が利用できない場合、規定値応答２０２が提供されてもよい。既定値応答２０２は、デバイスケイパビリティに対する指定がなくてもよく、複数のデバイスフォームファクタにおける使用に対して最適化されてもよい（例えば、テキストメッセージ送信のためのユーザおよびデジタルパーソナルアシスタント間の対話交換は、メッセージ受信者およびメッセージ内容について問い合わせてもよい）。

[0044] 図４は、本開示の実施形態の例による、調整され得るアプリケーション反応型エージェントを用いるコンピューティングデバイスのブロック図である。図４を参照すると、コンピューティングデバイス１０２は、アプリケーション（app）４０２などの１つまたは複数のアプリケーションを実行中であってもよい。ａｐｐ４０２は、例えば、サードパーティアプリケーション、またはデバイスのオペレーティングシステムで提供されるネイティブアプリケーションであり得る。ａｐｐ４０２は、ＡＲＡ４０４などの１つまたは複数のアプリケーション反応型エージェント（ARA）を使用してもよい。実施形態の例では、ＡＲＡ４０４は、ａｐｐ４０２の一部として（または、デバイス１０２に通信可能に連結されるリモートサーバにおいてなど、コンピューティングデバイス１０２の外部に）実装されてもよい。対話が、ａｐｐ４０２のユーザで開始されるとき、ＡＲＡ４０４は、ａｐｐ４０２によって使用される応答を生成するように動作可能であってもよい。この点において、図１〜３を参照して説明した機能のうちの１つまたは複数が、ａｐｐ４０２において利用可能であってもよい。

[0045] より具体的には、ａｐｐ４０２は、調整サービス１１６（ａｐｐ４０２の一部として実装されてもよい）を使用して、モード／デバイスに適した応答を提供してもよい。例えば、調整サービス１１６が、ａｐｐ４０２（または、ＡＲＡ４０４）内で実装される場合、ＡＰＩ要求４２０は、モードおよび／またはデバイスケイパビリティ情報を要求するために使用されてもよい。デバイスモード情報１１８、および／またはデバイスケイパビリティ情報１２０は、調整サービス１１６（調整サービスが、ａｐｐ４０２の一部である場合）による使用のために、ａｐｐ４０２に通信されてもよい。応答データベース（例えば、２１２）およびユーザインターフェースエンジン（例えば、２１４）との通信後、モード／デバイスに適した応答は、ａｐｐ４０２による使用のために、生成され、ａｐｐ４０２またはＡＲＡ４０４に通信されてもよい。

[0046] 別の実施形態では、ＡＲＡ４０４は、（デジタルパーソナルアシスタント１０８内の４０４について破線で示されるように）デバイスネイティブエージェント１１０、．．．、１１４の一部として実装されてもよい。この場合、モード／デバイスに適した応答（例えば、４１４）は、図１〜３においてネイティブＲＡ１１０、．．．、１１４を参照して説明したように生成されてもよい。ＭＤＡＲ４１４は、次いで、ａｐｐ４０２のユーザによって開始される対話での使用のために、ＴＰＡ４０２に通信されてもよい。

[0047] 図５〜７は、１つまたは複数の実施形態による、デバイスにわたってデジタルパーソナルアシスタントエージェントを調整することを示すフロー図である。図１〜３および図５を参照すると、方法５００の例は、５０２において、コンピューティングデバイス１０２が、コンピューティングデバイス内のデジタルパーソナルアシスタント（例えば、ＤＰＡ１０８）を用いて対話を開始するユーザ入力を受信し得るときに、開始してもよい。デジタルパーソナルアシスタント１０８は、ＲＡ１１０、．．．、１１４などの複数の反応型エージェントに関連付けられてもよい。５０４において、入力を受信することに応答して、コンピューティングデバイスの動作モード（例えば、１１８）が、複数の利用可能な動作モード（例えば、３１６、３２２、３２８、および３３４）から検出されてもよい。５０６において、ＤＰＡ１０８は、受信した入力に基づいて、複数の反応型エージェントのうちの１つ（例えば、１１０）を選択してもよい。例えば、ＲＡのうちの１つが、受信したユーザ入力に関連する機能の種類（例えば、メッセージ、電子メール、ナビゲーションなど）に基づいて選択されてもよい。５０８において、調整サービス１１６（および／または反応型エージェント）は、選択された反応型エージェントに関連付けられた複数の応答文字列（例えば、データベース２１２内の応答）にアクセスしてもよい。５１０において、調整サービス１１６は、コンピューティングデバイスの動作モード（例えば、１１８）および／または少なくとも１つのハードウェア特性（例えば、デバイスケイパビリティ／特性１２０のうちの１つまたは複数）に少なくとも基づいて、複数の応答文字列のうちの少なくとも１つを選択してもよい。５１２において、複数の応答文字列のうちの選択された少なくとも１つが、ユーザ入力に対する応答として、調整サービス１１６によって提供されてもよい。

[0048] 図１〜３および図６を参照すると、方法６００の例は、６０２において、デジタルパーソナルアシスタント１０８が、ユーザによって生成されたデジタル音声入力を受信し得るときに、開始してもよい。デジタル音声入力は、コンピューティングデバイス１０２のマイクロフォンを介して受信されてもよい。６０４において、デジタル音声入力を受信することに応答して、コンピューティングデバイスの動作モード（例えば、１１８）および少なくとも１つのハードウェア特性（例えば、１２０）が、検出されてもよい。６０６において、調整サービス１１６は、デジタルパーソナルアシスタント（例えば、１０８）のための反応型エージェント（例えば、ＲＡ１１０、．．．、１１４のうちの１つ）に関連付けられた、（例えば、応答データベース２１２内の）複数の応答文字列のうちの少なくとも１つを選択してもよい。６０８において、調整サービス１１６は、複数の応答文字列のうちの少なくとも１つ（例えば、ＲＡ１１０に通信される、返されたＭＤＡＲ１２６）についての（例えば、図３を参照して説明したような）提示モードを選択してもよい。複数の応答文字列のうちの少なくとも１つおよび提示モードを選択することは、動作モード（１１８）および／または少なくとも１つのハードウェア特性（１２０）に少なくとも基づいてもよい。６１０において、ＲＡ１１０、ＤＰＡ１０８（および／または調整サービス１１６）は、デジタル音声入力に対する応答として、複数の応答文字列のうちの少なくとも１つ（例えば、ＭＤＡＲ１２６）を、提示モードを用いて提供してもよい。

[0049] 図１〜４および図７を参照すると、方法７００の例は、７０２において、コンピュータシステム（例えば、デバイス１０２）上で実行中のアプリケーション（例えば、ａｐｐ４０２）が、ユーザによって生成されたデジタル音声入力を受信し得るときに、開始してもよい。デジタル音声入力は、コンピューティングデバイス１０２のマイクロフォンを介して受信されてもよい。７０４において、コンピューティングデバイス１０２は、ユーザ音声要求を判断するために、デジタル音声入力を使用して自然言語処理を実行してもよい（例えば、自然言語処理は、調整サービス１１６に関連付けられた音声プラットフォーム２１１によって実行されてもよい）。ユーザ音声要求は、コンピュータシステム（例えば、デバイス１０２）上で実行中のアプリケーション（ａｐｐ４０２）によって実行される１つまたは複数の機能に関連付けられてもよい。アプリケーション（ａｐｐ４０２）は、１つまたは複数の機能を実行するための１つまたは複数のアプリケーション反応型エージェント（例えば、ＡＲＡ４０４）を含んでもよい。

[0050] ７０６において、ａｐｐ４０２（および／またはＤＰＡ１０８）は、１つまたは複数の機能を実行するための１つまたは複数のアプリケーション反応型エージェントのうちの１つを選択してもよい（例えば、ＡＲＡ４０４が選択されてもよい）。７０８において、アプリケーション（ａｐｐ４０２）は、ＡＰＩ要求（例えば、４２０）を使用して、コンピュータシステムの動作モードおよび／または少なくとも１つのハードウェア特性を識別する情報を要求してもよい。７１０において、ＡＰＩ要求４２０に応答して、コンピュータシステムの動作モード（例えば、１１８）および／または少なくとも１つのハードウェア特性（例えば、１２０）を識別する、要求された情報が、ａｐｐ４０２で受信されてもよい（例えば、ａｐｐ４０２が、調整サービス１１６および／またはＤＰＡ１０８の機能を実装するときに、情報１１８および／または１２０が、ａｐｐ４０２によって受信される）。７１２において、選択された反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも１つが、選択されてもよい（例えば、ＭＤＡＲ４１４が、選択されてもよい）。７１４において、複数の応答文字列のうちの少なくとも１つについての提示モードが、調整サービス１１６によって選択されてもよい。複数の応答文字列のうちの少なくとも１つおよび提示モードを選択することは、動作モード（１１８）および／または少なくとも１つのハードウェア特性（１２０）に少なくとも基づいてもよい。７１６において、ユーザ音声要求に対する応答として、複数の応答文字列のうちの少なくとも１つ（ＭＤＡＲ４１４）が、提示モードを用いて提供されてもよい。

[0051] 図８は、本明細書で説明するイノベーションが併せて実装され得る、モバイルコンピューティングデバイスの例を示すブロック図である。モバイルデバイス８００は、全体として８０２で示される、様々な任意選択的なハードウェアおよびソフトウェアコンポーネントを含む。説明を簡単にするために、接続が全て示されているわけではないが、概して、モバイルデバイス内のコンポーネント８０２は、デバイスの任意の他のコンポーネントと通信することができる。モバイルデバイス８００は、様々なコンピューティングデバイス（例えば、携帯電話、スマートフォン、手持ちコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットデバイス、ネットブック、メディアプレーヤ、携帯情報端末（PDA）、カメラ、ビデオカメラなど）のうちのいずれかであってもよく、Ｗｉ−Ｆｉ、セルラ、または衛星ネットワークなどの、１つまたは複数のモバイル通信ネットワーク８０４で、無線双方向通信を可能にすることができる。

[0052] 図示されたモバイルデバイス８００は、信号符号化、データ処理（重みの割り当て、および検索結果などのデータのランク付けを含む）、入力／出力処理、電力制御、ならびに／またはその他の機能などのタスクを実行するための、コントローラまたはプロセッサ８１０（例えば、信号プロセッサ、マイクロプロセッサ、ASIC、またはその他の制御および処理ロジック回路）を含む。オペレーティングシステム８１２は、コンポーネント８０２の配分および使用を制御し、１つまたは複数のアプリケーションプログラム８１１をサポートする。オペレーティングシステム８１２は、反応型エージェント８１３ａ、および調整サービス８１３ｂを有するデジタルパーソナルアシスタントを含んでもよい。調整サービス８１３ｂ、および反応型エージェント８１３ａを有するデジタルパーソナルアシスタントは、図１〜４を参照して説明したような調整サービス１１６、ＤＰＡ１０８、および反応型エージェント（例えば、１１０、．．．、１１４、４０４）の機能に類似する機能を有してもよい。

[0053] 図示されるモバイルデバイス８００は、メモリ８２０を含む。メモリ８２０は、非リムーバブルメモリ８２２、および／またはリムーバブルメモリ８２４を含み得る。非リムーバブルメモリ８２２は、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク、またはその他の周知のメモリ記憶技術を含み得る。リムーバブルメモリ８２４は、フラッシュメモリ、または汎欧州デジタル移動電話方式（GSM（登録商標））通信システムにおいて周知の加入者識別モジュール（SIM）カード、または「スマートカード」などのその他の周知のメモリ記憶技術を含み得る。メモリ８２０は、オペレーティングシステム８１２およびアプリケーション８１１を実行するためのデータおよび／またはコードを記憶するために使用され得る。データの例は、ウェブページ、テキスト、画像、サウンドファイル、ビデオデータ、または、１つもしくは複数の有線もしくは無線ネットワークを介して、１つもしくは複数のネットワークサーバもしくはその他のデバイスに送信および／もしくは受信されるべきその他のデータセットを含み得る。メモリ８２０は、国際移動体加入者識別番号（IMSI）などの加入者識別子、および国際移動体装置識別番号（IMEI）などの機器識別子を記憶するために使用され得る。そのような識別子は、ユーザおよび機器を識別するためにネットワークサーバに伝送され得る。

[0054] モバイルデバイス８００は、タッチスクリーン８３２（例えば、指タップ入力、指ジェスチャ入力、または仮想キーボードもしくはキーパッドに対するキーストローク入力を取り込み可能）、マイクロフォン８３４（例えば、音声入力を取り込み可能）、カメラ８３６（例えば、静止画像および／もしくは動画を取り込み可能）、物理キーボード８３８、ボタン、ならびに／またはトラックボール８４０などの１つまたは複数の入力デバイス８３０、ならびに、スピーカ８５２およびディスプレイ８５４などの１つまたは複数の出力デバイス８５０をサポートし得る。その他の考えられる出力デバイス（不図示）は、圧電性の、またはその他のハプティック出力装置を含み得る。いくつかのデバイスは、１つより多くの入力／出力機能を供給することができる。例えば、タッチスクリーン８３２およびディスプレイ８５４は、結合して単一の入力／出力デバイスにされ得る。モバイルデバイス８００は、１つまたは複数のナチュラルユーザインターフェース（NUI）を提供することができる。例えば、オペレーティングシステム８１２またはアプリケーション８１１は、音声／ビデオプレーヤなどの、マルチメディア処理ソフトウェアを含み得る。

[0055] ワイヤレスモデム８６０は、本技術分野でよく理解されているように、１つまたは複数のアンテナ（不図示）に連結されてもよく、プロセッサ８１０および外部デバイス間の双方向通信をサポートすることができる。モデム８６０は、包括的に示されており、例えば、モバイル通信ネットワーク８０４と遠距離で通信するためのセルラモデム、外部Ｂｌｕｅｔｏｏｔｈ搭載デバイスもしくはローカルワイヤレスデータネットワークと短距離で通信するためのＢｌｕｅｔｏｏｔｈ対応モデム８６４もしくはＷｉ−Ｆｉ対応モデム８６２、またはルータを含み得る。ワイヤレスモデム８６０は、典型的には、単一のセルラネットワーク内、セルラネットワーク間、またはモバイルデバイスおよび公衆交換電話網（PSTN）間のデータおよび音声通信のためのＧＳＭネットワークなどの、１つまたは複数のセルラネットワークとの通信のために構成される。

[0056] モバイルデバイスは、少なくとも１つの入力／出力ポート８８０、電力供給８８２、全地球測位システム（GPS）受信機などの衛星航法システム受信機８８４、加速度計、ジャイロスコープ、もしくはデバイス８００の方向および動きを検出し、ジェスチャコマンドを入力として受信するための赤外線近接センサなどのセンサ８８６、（アナログもしくはデジタル信号を無線送信するための）送信機８８８、ならびに／または物理コネクタ８９０を、さらに含み得る。物理コネクタ８９０は、ＵＳＢポート、ＩＥＥＥ１３９４（FireWire）ポート、および／またはＲＳ−２３２ポートであってもよい。図示したコンポーネントのうちのいずれかが削除され、他のコンポーネントが追加され得るため、説明したコンポーネント８０２は、必須ではなく、または全てを含むものではない。

[0057] モバイルデバイスは、衛星航法システム受信機８８４（例えば、GPS受信機）を通じて受信する情報に基づいて、モバイルデバイスの位置を示す位置データを判断することができる。代替的には、モバイルデバイスは、別の方法で、モバイルデバイスの位置を示す位置データを判断することができる。例えば、モバイルデバイスの位置は、セルラネットワークの基地局間の三角測量によって判断され得る。あるいは、モバイルデバイスの位置は、モバイルデバイスの周辺のＷｉ−Ｆｉルータの既知の位置に基づいて判断され得る。位置データは、実装および／またはユーザ設定に応じて、毎秒または何らかの他の基準で更新され得る。位置データの出所に関わらず、モバイルデバイスは、地図ナビゲーションで使用するための地図ナビゲーションツールに位置データを提供することができる。

[0058] クラインアントコンピューティングデバイスとして、モバイルデバイス８００は、要求をサーバコンピューティングデバイス（例えば、検索サーバ、ルーティングサーバなど）に送信し、地図画像、距離、方向、その他の地図データ、検索結果（例えば、指定した検索エリア内のPOI検索に基づくPOI）、またはその他のデータを、サーバコンピューティングデバイスからの戻り値として受信することができる。

[0059] モバイルデバイス８００は、様々な種類のサービス（例えば、コンピューティングサービス）が、コンピューティング「クラウド」によって提供される、実装環境の一部であり得る。例えば、クラウドは、集中型または分散型で配置され得るコンピューティングデバイスの集合を含むことができ、クラウドベースのサービスを、インターネットなどのネットワークを介して接続される様々な種類のユーザ、およびデバイスに提供する。いくつかのタスク（例えば、ユーザ入力の処理、およびユーザインターフェースの提示）は、ローカルコンピューティングデバイス（例えば、接続されたデバイス）上で実行され得る。一方、他のタスク（例えば、後続の処理で使用されるべきデータの記憶、データの重み付け、およびデータのランク付け）が、クラウドで実行され得る。

[0060] 図８は、モバイルデバイス８００を示しているが、より一般的には、本明細書で説明するイノベーションは、デスクトップコンピュータ、テレビジョン画面、またはテレビジョンに接続されるデバイス（例えば、セットトップボックスまたはゲームコンソール）などの、他の画面ケイパビリティおよびデバイスフォームファクタを有するデバイスで実装され得る。サービスは、サービスプロバイダを通じて、またはオンラインサービスの他のプロバイダを通じて、クラウドによって提供され得る。追加的には、本明細書で説明する技術は、音声ストリーミングに関係し得るため、デバイス画面は、必須でなくてもよく、または使用されなくともよい（ディスプレイは、音声／ビデオコンテンツが、ビデオ再生ケイパビリティを用いてマルチメディアエンドポイントデバイスにストリーミングされている場合に、使用されてもよい）。

[0061] 図９は、いくつかの説明される実施形態が実装され得る、コンピューティングシステムの例の図である。イノベーションは、多様な汎用または専用コンピューティングシステムにおいて実装されてもよいため、コンピューティングシステム９００は、使用または機能の範囲についていかなる限定も示唆することを意図しない。

[0062] 図９を参照すると、コンピューティングシステム９００は、１つまたは複数の処理ユニット９１０、９１５、およびメモリ９２０、９２５を含む。図９では、この基本構成９３０は、破線内に含まれる。処理ユニット９１０、９１５は、コンピュータ実行可能命令を実行する。処理ユニットは、汎用中央処理装置（CPU）、特定用途向け集積回路（ASIC）内のプロセッサ、または任意の他の種類のプロセッサであり得る。マルチ処理システムでは、マルチ処理ユニットは、処理能力を向上させるために、コンピュータ実行可能な命令を実行する。例えば、図９は、中央処理装置９１０、およびグラフィック処理ユニットまたは共処理ユニット９１５を示す。有形メモリ９２０、９２５は、揮発性メモリ（例えば、レジスタ、キャッシュ、RAM）、不揮発性メモリ（例えば、ROM、EEPROM、フラッシュメモリなど）、または処理ユニットによってアクセス可能な２つの、いくつかの組み合わせであってもよい。メモリ９２０、９２５は、本明細書で説明する１つまたは複数のイノベーションを実装するソフトウェア９８０を、処理ユニットによる実行に適したコンピュータ実行可能命令の形式で記憶する。

[0063] コンピューティングシステムは、また、追加の特徴を有してもよい。例えば、コンピューティングシステム９００は、記憶装置９４０、１つまたは複数の入力デバイス９５０、１つまたは複数の出力デバイス９６０、および１つまたは複数の通信接続９７０を含む。バス、コントローラ、またはネットワークなどの相互接続機構（不図示）が、コンピューティングシステム９００のコンポーネントを相互接続する。典型的には、オペレーティングシステムソフトウェア（不図示）は、コンピューティングシステム９００内で実行する他のソフトウェアのための動作環境を提供し、コンピューティングシステム９００のコンポーネントの活動を連携させる。

[0064] 有形記憶装置９４０は、リムーバブルまたは非リムーバブルであってもよく、磁気ディスク、磁気テープもしくはカセット、ＣＤ−ＲＯＭ、ＤＶＤ、または情報を記憶するために使用され得る、かつ、コンピューティングシステム９００内でアクセスされ得る、任意の他の媒体を含む。記憶装置９４０は、本明細書で説明する１つまたは複数のイノベーションを実装するソフトウェア９８０のための命令を記憶する。

[0065] 入力デバイス９５０は、キーボード、マウス、ペン、またはトラックボールなどのタッチ入力デバイス、音声入力デバイス、走査デバイス、またはコンピューティングシステム９００に入力を提供する別のデバイスであってもよい。ビデオ符号化のために、入力デバイス９５０は、カメラ、ビデオカード、ＴＶチューナカード、またはビデオ入力をアナログもしくはデジタル形式で受け付ける類似のデバイス、またはコンピューティングシステム９００にビデオサンプルを読み出すＣＤ−ＲＯＭもしくはＣＤ−ＲＷであってもよい。出力デバイス９６０は、ディスプレイ、プリンタ、スピーカ、ＣＤライタ、またはコンピューティングシステム９００から出力を提供する別のデバイスであってもよい。

[0066] 通信接続９７０は、別のコンピューティングエンティティに対し、通信媒体を介した通信を可能にする。通信媒体は、コンピュータ実行可能命令などの情報、音声入力もしくはビデオ入力もしくは出力、または変調データ信号内の他のデータを伝達する。変調データ信号は、信号内の情報を符号化するようなやり方で設定され、または変更された、信号の特性のうちの１つまたは複数を有する信号である。限定ではなく例として、通信媒体は、電気、光、ＲＦ、または他のキャリアを使用し得る。

[0067] イノベーションは、プログラムモジュールに含まれ、対象の実プロセッサまたは仮想プロセッサ上のコンピュータシステムにおいて実行されるような、コンピュータ実行可能命令の一般的な文脈において説明され得る。概して、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。プログラムモジュールの機能は、様々な実施形態において所望によりプログラムモジュール間で結合され、または分割されてもよい。プログラムモジュールのためのコンピュータ実行可能命令は、ローカルまたは分散コンピューティングシステム内で実行されてもよい。

[0068] 「システム」および「デバイス」という用語は、本明細書において交換可能に使用される。文脈が明確に示さない限り、どちらの用語も、コンピューティングシステムまたはコンピューティングデバイスの種類についていかなる限定も示唆しない。概して、コンピューティングシステムまたはコンピューティングデバイスは、ローカル型または分散型であってもよく、本明細書で説明する機能を実装するソフトウェアを有する、専用ハードウェアおよび／または汎用ハードウェアの任意の組み合わせを含み得る。

[0069] 提示のために、詳細な説明では、コンピューティングシステムにおけるコンピュータ動作を説明するために、「判断する」および「使用する」などの用語を使用する。これらの用語は、コンピュータによって実行される動作についてのハイレベルな抽象化であり、人間によって実行される動作と混同されるべきではない。これらの用語に対応する実際のコンピュータ動作は、実装に依存して様々である。

[0070] 開示された方法のうちのいくつかの動作は、提示の便宜のために特定の連続した順序で説明されるが、特定の順序付けが、以下に記載する特定の言葉によって必要とされない限り、このような説明は、再配列を包含すると理解されるべきである。例えば、連続して説明される動作は、いくつかの場合には再配列されてもよく、または同時に実行されてもよい。さらに、簡略化のために、添付の図面は、開示された方法が他の方法と併せて使用され得る、様々な方法を示さないことがある。

[0071] 開示された方法のうちのいずれかは、１つまたは複数のコンピュータ可読記憶媒体上に記憶され、コンピューティングデバイス（例えば、スマートフォン、またはコンピューティングハードウェアを含むその他のモバイルデバイスを含む、任意の利用可能なコンピューティングデバイス）上で実行される、コンピュータ実行可能命令またはコンピュータプログラム製品として実装され得る。コンピュータ可読記憶媒体は、コンピューティング環境内でアクセスされ得る、任意の利用可能な有形媒体（例えば、DVDもしくはCDなどの、１つまたは複数の光学媒体ディスク、揮発性メモリコンポーネント（DRAMもしくはSRAMなど）、または不揮発性メモリコンポーネント（フラッシュメモリもしくはハードドライブなど））である。例として、図９を参照すると、コンピュータ可読記憶媒体は、メモリ９２０および９２５、ならびに記憶装置９４０を含む。「コンピュータ可読記憶媒体」という用語は、信号および搬送波を含まない。さらに、「コンピュータ可読記憶媒体」という用語は、通信接続（例えば、９７０）を含まない。

[0072] 開示された技術を実装するためのコンピュータ実行可能命令のうちのいずれか、ならびに開示された実施形態の実装中に作成され、使用される任意のデータは、１つまたは複数のコンピュータ可読記憶媒体上に記憶され得る。コンピュータ実行可能命令は、例えば、専用ソフトウェアアプリケーション、または、ウェブブラウザもしくはその他のソフトウェアアプリケーション（リモートコンピューティングアプリケーションなど）を介してアクセスされ、もしくはダウンロードされる、ソフトウェアアプリケーションの一部であり得る。そのようなソフトウェアは、例えば、単一のローカルコンピュータ（例えば、任意の適当な市販のコンピュータ）上で、または、１つもしくは複数のネットワークコンピュータを使用する（例えば、インターネット、広域ネットワーク、ローカルエリアネットワーク、クライアントサーバネットワーク（クラウドコンピューティングネットワークなど）、またはその他のそのようなネットワークを介した）ネットワーク環境において、実行され得る。

[0073] 明確化のため、ソフトウェアベースの実装の、ある選択された態様のみについて、説明する。本技術分野において周知の他の詳細は、省略される。例えば、開示された技術は、いかなる特定のコンピュータ言語またはプログラムにも限定されないことを理解すべきである。例えば、開示された技術は、Ｃ＋＋、Ｊａｖａ（登録商標）、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＡｄｏｂｅＦｌａｓｈ、または任意の他の適当なプログラミング言語で書かれたソフトウェアによって実装され得る。同様に、開示された技術は、いかなる特定のコンピュータ、またはハードウェアの種類にも限定されない。適当なコンピュータおよびハードウェアのある詳細は、周知であり、本開示において詳細に記載する必要はない。

[0074] さらに、（例えば、開示した方法のうちのいずれかをコンピュータに実行させるための、コンピュータ実行可能命令を含む）ソフトウェアベースの実施形態のうちのいずれかは、適当な通信手段を通じてアップロードされ、ダウンロードされ、または遠隔アクセスされ得る。そのような適当な通信手段は、例えば、インターネット、ワールドワイドウェブ、イントラネット、ソフトウェアアプリケーション、ケーブル（光ファイバケーブルを含む）、磁気通信、電磁気通信（RF、マイクロ波、および赤外線通信を含む）、電子通信、または他のそのような通信手段を含む。

[0075] 開示された方法、装置、およびシステムは、どのようなかたちでも限定をするものとして解釈されるべきではない。むしろ、本開示は、単独での、ならびに相互の様々な組み合わせおよび部分的組み合わせでの、様々な開示した実施形態の、全ての新規かつ自明でない特徴および態様を対象とする。開示した方法、装置、およびシステムは、いかなる特定の態様もしくは特徴、またはそれらの組み合わせにも限定されず、開示した実施形態は、任意の１つもしくは複数の特定の利点が存在すること、または問題が解決されることを必要としない。

[0076] 任意の例からの技術は、他の例のうちの任意の１つまたは複数において説明される技術と組み合わされ得る。開示した技術の原理が適用され得る、多くの考えられる実施形態について、説明した実施形態は、開示した技術の例であると認識されるべきであり、開示した技術の範囲についての限定として取られるべきではない。むしろ、開示した技術の範囲は、以下の特許請求の範囲および思想によって包含されるものを含む。

Claims

デジタルパーソナルアシスタントを有するコンピューティングデバイスにおいて、デジタルパーソナルアシスタントの応答を提供する方法であって、
前記コンピューティングデバイス内の前記デジタルパーソナルアシスタントを用いて、対話を開始するユーザ入力を受信することであって、前記デジタルパーソナルアシスタントは、複数の反応型エージェントに関連付けられることと、
前記入力を受信することに応答して、前記コンピューティングデバイスの動作モードを、複数の利用可能な動作モードから検出することと、
前記受信した入力に基づいて、前記複数の反応型エージェントのうちの１つを選択することと、
前記選択された反応型エージェントに関連付けられた複数の応答文字列にアクセスすることと、
前記コンピューティングデバイスの前記動作モードおよび少なくとも１つのハードウェア特性に少なくとも基づいて、前記複数の応答文字列のうちの少なくとも１つを選択することと、
前記複数の応答文字列のうちの前記選択された少なくとも１つを、前記ユーザ入力に対する応答として前記対話の間に提供することと、を含む方法。
前記動作モードは、
音声専用動作モード、
やや注意散漫動作モード、
完全な使用中動作モード、および
表示制限動作モードのうちの１つである、請求項１に記載の方法。
前記動作モードおよび前記少なくとも１つのハードウェア特性に少なくとも一部基づいて、前記複数の応答文字列のうちの前記少なくとも１つについての提示モードを選択することと、
前記コンピューティングデバイスからの前記ユーザの距離、前記コンピューティングデバイス周辺の騒音レベル、および前記コンピューティングデバイスとの能動的な関与についての前記ユーザの現在の利用可能性のうちの少なくとも１つに基づいて、前記提示モードの選択を修正することと、をさらに含む、請求項１に記載の方法。
前記提示モードは、
前記複数の応答文字列のうちの前記選択された少なくとも１つの、テキスト音声表現の音声出力、前記複数の応答文字列のうちの前記選択された少なくとも１つの視覚的出力、および前記複数の応答文字列のうちの前記選択された少なくとも１つに関連する触覚的出力のうちの少なくとも１つを含む、請求項３に記載の方法。
前記コンピューティングデバイスに通信可能に連結される少なくとも１つの周辺デバイスを検出することと、
前記少なくとも１つの周辺デバイスの前記動作モードおよび少なくとも１つのハードウェア特性に少なくとも基づいて、前記複数の応答文字列のうちの少なくとも第２の１つを選択することと、
前記複数の応答文字列の前記選択された少なくとも第２の１つを、前記対話の間に前記少なくとも１つの周辺デバイスにおいて提供することと、をさらに含む、請求項１に記載の方法。
前記ユーザ入力は、音声入力であり、前記方法は、
前記音声入力に基づいて、前記デジタルパーソナルアシスタントの少なくとも１つの要求された機能を検出することと、
前記少なくとも１つの要求された機能を実行するために、前記複数の反応型エージェントのうちの前記１つを選択することと、をさらに含む、請求項１に記載の方法。
プロセッサ、メモリ、およびマイクロフォンを含むコンピューティングデバイスであって、前記コンピューティングデバイスは、デジタルパーソナルアシスタントの応答を提供する方法を実行するように適合され、前記方法は、
デジタルパーソナルアシスタントによって、ユーザにより生成されたデジタル音声入力を受信することであって、前記デジタル音声入力は、前記マイクロフォンを介して受信されることと、
前記デジタル音声入力を受信することに応答して、前記コンピューティングデバイスの動作モードおよび少なくとも１つのハードウェア特性を検出することと、
前記デジタルパーソナルアシスタントのための反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも１つを選択することと、
前記複数の応答文字列のうちの前記少なくとも１つについての提示モードを選択することであって、前記複数の応答文字列のうちの前記少なくとも１つ、および前記提示モードを前記選択することは、前記動作モードおよび前記少なくとも１つのハードウェア特性に少なくとも基づくことと、
前記デジタル音声入力に対する応答として、前記複数の応答文字列のうちの前記少なくとも１つを、前記提示モードを用いて提供することと、を含む、コンピューティングデバイス。
前記動作モードは、音声専用動作モードであり、前記方法は、
テキスト音声（TTS）変換を用いて、前記複数の応答文字列のうちの前記少なくとも１つを、音声応答オーディオ出力に変換することと、
前記デジタル音声入力への前記応答として、前記音声応答オーディオ出力を提供することと、をさらに含む、請求項７に記載のコンピューティングデバイス。
前記動作モードは、やや注意散漫動作モード、および完全な使用中動作モードのうちの１つであり、前記方法は、
テキスト音声（TTS）変換を用いて、前記複数の応答文字列のうちの前記少なくとも１つを、音声応答オーディオ出力に変換することと、
前記デジタル音声入力に対する前記応答として、前記複数の応答文字列のうちの前記少なくとも１つの、前記音声応答オーディオ出力および表示出力のうちの１つまたは両方を提供することと、をさらに含む、請求項７に記載のコンピューティングデバイス。
前記動作モードは、表示制限動作モードであり、前記方法は、
前記デジタル音声入力に対する前記応答として、前記コンピューティングデバイスのディスプレイ上に、前記複数の応答文字列のうちの前記少なくとも１つを提供することをさらに含む、請求項７に記載のコンピューティングデバイス。
前記方法は、
ユーザ音声要求を判断するために、前記デジタル音声入力を使用して自然言語処理を実行することであって、前記ユーザ音声要求は、前記デジタルパーソナルアシスタントを用いて第１の対話を開始するための要求であることをさらに含む、請求項７に記載のコンピューティングデバイス。
前記方法は、
前記デジタルパーソナルアシスタントを用いて第２の対話を開始するための、別のデジタル音声入力を検出することと、
前記第２の対話開始時に、前記コンピューティングデバイスの前記動作モードおよび前記少なくとも１つのハードウェア特性のうちの少なくとも１つにおける変化を検出することと、
前記コンピューティングデバイスの前記動作モードおよび前記少なくとも１つのハードウェア特性のうちの少なくとも１つが前記第２の対話の開始時に変化したときに、前記動作モードおよび前記少なくとも１つのハードウェア特性のうちの前記変化した少なくとも１つに基づいて、前記複数の応答文字列のうちの前記少なくとも１つ、および前記提示モードの選択を更新することと、をさらに含む、請求項１１に記載のコンピューティングデバイス。
実行時に、コンピュータシステムに、
前記コンピュータシステム上で実行中のアプリケーションによって、ユーザにより生成されたデジタル音声入力を受信させ、前記デジタル音声入力は、マイクロフォンを介して受信され、
ユーザ音声要求を判断するために、前記デジタル音声入力を使用して自然言語処理を実行させ、
前記ユーザ音声要求は、前記コンピュータシステム上で実行中の前記アプリケーションによって実行される１つまたは複数の機能に関連付けられ、
前記アプリケーションは、前記１つまたは複数の機能を実行するための１つまたは複数の反応型エージェントを含み、
前記１つまたは複数の機能を実行するための前記１つまたは複数の反応型エージェントのうちの１つを選択させ、
前記アプリケーションによって、前記コンピュータシステムの動作モードおよび少なくとも１つのハードウェア特性を識別する情報を要求させ、前記要求することが、ＡＰＩ要求を使用し、
前記ＡＰＩ要求に応答して、前記コンピュータシステムの前記動作モードおよび前記少なくとも１つのハードウェア特性を識別する前記要求された情報を受信させ、
前記選択されたサードパーティの反応型エージェントに関連付けられた複数の応答文字列のうちの少なくとも１つを選択させ、
前記複数の応答文字列のうちの前記少なくとも１つについての提示モードを選択させ、前記複数の応答文字列のうちの前記少なくとも１つおよび前記提示モードを前記選択することは、前記動作モードおよび前記少なくとも１つのハードウェア特性に少なくとも基づき、
前記ユーザ音声要求に対する応答として、前記複数の応答文字列のうちの前記少なくとも１つを、前記提示モードを用いて提供させる、命令を含む、コンピュータ可読記憶媒体。
前記命令は、実行時に、前記コンピュータシステムにさらに、
デジタルパーソナルアシスタント内の複数のネイティブ反応型エージェントを前記選択された反応型エージェントに提供させる、請求項１３に記載のコンピュータ可読記憶媒体。
前記動作モードは、やや注意散漫動作モード、および完全な使用中動作モードのうちの１つであり、前記命令は、実行時に、前記コンピュータシステムにさらに、
テキスト音声（TTS）変換を用いて、前記複数の応答文字列のうちの前記少なくとも１つを、音声応答オーディオ出力に変換させ、
前記デジタル音声入力に対する前記応答として、前記複数の応答文字列のうちの前記少なくとも１つの、前記音声応答オーディオ出力および表示出力のうちの１つまたは両方を提供させる、請求項１３に記載のコンピュータ可読記憶媒体。