JP2023120130A

JP2023120130A - 抽出質問応答を利用する会話型ａｉプラットフォーム

Info

Publication number: JP2023120130A
Application number: JP2022088245A
Authority: JP
Inventors: ダスシュバーディープ; Das Shubhadeep; バータチャリヤスミット; Bhattacharya Sumit; クマールラティン; Kumar Ratin
Original assignee: Nvidia Corp
Current assignee: Nvidia Corp
Priority date: 2022-02-17
Filing date: 2022-05-31
Publication date: 2023-08-29
Also published as: CN116610777A; DE102023102142A1; US20230259540A1

Abstract

【課題】抽出質問応答を利用する会話型人工知能プラットフォームを提供する。【解決手段】多様な実例において、会話型人工知能（ＡＩ）プラットフォームは、ユーザからのクエリに対する応答を生成するために構造化データ及び非構造化データを使用する。ある実例では、クエリに対する応答のためのデータが構造化データ構造に記憶されていなければ、会話型ＡＩプラットフォームは非構造化データ構造においてこのデータを検索する。【選択図】図１

Description

会話型人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）アシスタントは、ユーザの口頭要求を満足させるための多様なプラットフォームにわたって使用される。たとえば、電話、コンピュータ、タブレット、ディスプレイ、及びスピーカなどのスマート・デバイスは、情報（たとえば、天気、ニュース、金融情報など）へのユーザの口頭要求と対話するために、及び／又はスマート・デバイス若しくは通信可能に結合されたデバイスのアクティブ化（たとえば、曲を再生する、セキュリティ・システムを作動させる、商品を注文するなど）のために、ＡＩアシスタントを使用し得る。加えて、これらのＡＩアシスタントは、ディスプレイ上に要求、たとえばウェブページをロードする、音楽アプリケーションのグラフィカル・ユーザ・インターフェースを実行する、遂行中のタスクの視覚インジケータを提供する、要求されたビデオ・クリップ、ショー、又は映画を表示するなどに応答する情報を表示し得る。しかしながら、これら従来のＡＩアシスタントは、対話メモリを構築する能力が制限されており、一般に、以前に記憶した情報に関するクエリにしか答えることができない。結果として、ある一定の情報（たとえばユーザの好みのレストランの名前、自宅住所など）が欠落していると、この欠落している情報について、従来のＡＩアシスタントは、この情報について入力を促されたとき、書き入れること又は効果的に返答することができない。加えて、これら従来のＡＩアシスタントは、一般に、使用される特定の領域ごとにプログラムされる必要があり、したがって、個別の領域ごとに記憶される個別の、領域特定型の情報を必要とする。結果として、ある領域からの情報が別の領域にとって有効な場合にも、従来のＡＩアシスタントは、多くの場合、別の領域に同一の情報を再び入力するか又は供給することを必要とする。

米国仮特許出願第６３／０１０，５１１号米国特許出願第１５／８０９，８４９号米国特許出願第１６／１３７，０６４号米国仮特許出願第６２／６４８，３５８号米国仮特許出願第６２／７４２，９２３号米国特許出願第１６／３６３，６４８号米国特許出願第１６／７７３，８８３号米国仮特許出願第６２／９４８，７８９号米国仮特許出願第６２／９４８，７９３号米国仮特許出願第６２／９４８，７９６号米国特許出願第１６／８５９号米国特許出願第１６／８６７，３９５号米国特許出願第１５／８２６，４３０号米国仮特許出願第６２／７１７，７３０号米国特許出願第１６／５３８，５９４号米国特許出願第１６／５３８，５９４号米国仮特許出願第６２／８７９，９０１号

本開示の実施例は、抽出質問応答を利用する会話型人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）プラットフォームに関する。クエリ（たとえばユーザ・クエリ）に対する応答を生成するように使用される構造化メモリと非構造化メモリとの両方を維持する会話型ＡＩプラットフォーム（たとえばバーチャル・アシスタントを含む）を含む、システム及び方法が開示される。ある実例では、会話型ＡＩプラットフォームは、特定のユーザとの対話を含む非構造化データ（たとえばドキュメント又は他の非構造化データ構造）を維持し、これは、クエリに対する応答及び／又は構造化メモリに記憶されるデータ（たとえば会話型ＡＩプラットフォームの短期記憶又は長期記憶）を生成するように使用され得る。結果として、この非構造化データは、多様な異なる領域にわたって、それぞれの異なる領域について同一の情報に関する個別の要求を必要とすることなく対話するために使用され得る。

会話型ＡＩプラットフォームは、上記で説明されたものなどの従来システムとは対照的に、未定義且つ／又は未知の用語を含むクエリに対する応答を生成することができる。実例の１つでは、ユーザが、（たとえば映像、音声、テキスト、及び／又はユーザ入力デバイスからの他の入力）で「私の出身地の天気は？」と尋ねるが、ユーザの出身地は会話型ＡＩプラットフォームによって定義されていない（たとえば、構造化データに記憶されていない、且つ／又は構造化データの定義されたキー値ペアのセットに含まれない）。そのような実例では、トレーニングされた質問応答（ＱｎＡ：ＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇ）モデルは、ユーザに関連付けられた非構造化データを検索して、ユーザの出身地を決定し、且つ／又は抽出する。たとえば、クエリに対する応答は、ＱｎＡモデルによる検索結果に少なくとも部分的に基づいて生成される。上記の実例に戻って、非構造化データがユーザの出身地は「サンフランシスコ」であると指示する記録を含んでいれば、そこで、会話型ＡＩプラットフォームは、クエリにおける「ユーザの出身地」を「サンフランシスコ」で置換する。したがって、会話型ＡＩプラットフォームを実行するシステムによってユーザから受信された音声、テキスト、映像、及び／又は他のユーザ入力データは、処理され、ＡＩエージェント（たとえば会話型ＡＩプラットフォームの構成要素）の映像、音声、及び／又は文字的応答をレンダリングするために使用され、この応答は、次いで、会話型ＡＩプラットフォームの実行に関連付けられた１つ又は複数のデバイス（たとえば、ディスプレイ、スピーカなど）によって表示されるか又は出力される。その上、多様な実施例において、ユーザから受信されたユーザ入力データ及び会話型ＡＩプラットフォームによって生成された応答は、非構造化データとして維持され、ＱｎＡモデルによって、応答を生成するために使用する情報を抽出するように使用される。

多様な実例において、この非構造化データは、ユーザと、会話型ＡＩプラットフォーム及び／又はそのＡＩエージェントなどの構成要素との間の会話の履歴及び／又は対話のログの記録を含む。会話型ＡＩプラットフォームは、たとえば、特定のユーザと会話型ＡＩプラットフォームとの間でやり取りされたクエリ、応答、及び他のデータを含有している、多様なユーザに関する個別の非構造化データ構造（たとえばドキュメント）を維持する。したがって、非構造化データは、ユーザと会話型ＡＩプラットフォームとの間の対話に少なくとも部分的に基づいて徐々に生成される。加えて、会話型ＡＩプラットフォームは、多様な実例において、多様な定義されたスロット向けのキー値ペアを含む構造化データ（たとえば短期記憶又は長期記憶）を維持する。たとえば、会話型ＡＩプラットフォームが含み得るキー「出身地」に対して値「サンフランシスコ」が記憶される。多様な実例において、特定のキーに関連付けられた値は、非構造化データから抽出される。

ユーザが会話型ＡＩプラットフォームにクエリを提示したとき、たとえば、会話型ＡＩプラットフォームは、最初に構造化データを検索し（たとえばクエリから抽出されたデータに少なくとも部分的に基づくキーワード検索を行い）、検索が失敗した場合（たとえば、構造化データが、対応するキー又はキーに対応する値を含有していない場合）には、次いで非構造化データを検索する。本開示で説明される非構造化データは、キー値ペアの定義を必要とする構造化データとは対照的に、定義されたデータを必要とせず、したがって、会話型ＡＩプラットフォームに、より優れた柔軟性及び応答性を与えることができる。実例の１つでは、会話型ＡＩプラットフォームは、「好みのレストラン」に関連付けて定義されたキーは含まなくても、「私の好みのレストランを予約する」というクエリに対して、ユーザの好みのレストランを示すデータを含む非構造化データに少なくとも部分的に基づいて応答することができる。

抽出質問応答を利用する会話型人工知能（ＡＩ）プラットフォームのための本システム及び方法が、添付図を用いて以下で詳細に説明される。

本開示の少なくとも１つの実施例による会話型ＡＩプラットフォームの実例のブロック図である。本開示の少なくとも１つの実施例による、会話型ＡＩプラットフォームの非構造化メモリに少なくとも部分的に基づいて応答を生成するための方法のブロック図である。本開示の少なくとも１つの実施例による、クエリに対する応答を生成するための方法のブロック図である。本開示の少なくとも１つの実施例による会話型ＡＩプラットフォームの実例のブロック図である。本開示の少なくとも１つの実施例による会話型ＡＩプラットフォームの実例のブロック図である。本開示のいくつかの実施例を実施中の使用に適している、コンピュータ・デバイスの実例のブロック図である。本開示のいくつかの実施例を実施中の使用に適している、一例のデータ・センタの実例のブロック図である。

抽出質問応答を利用する会話型人工知能（ＡＩ）プラットフォームに関するシステム及び方法が開示される。多様な実施例において、会話型ＡＩプラットフォーム（たとえばバーチャル・アシスタント、スマート・スピーカ、カスタマ・サポート・アプリケーションなど）は、クエリに対する応答を生成するために構造化メモリ及び非構造化メモリを維持する。ある実例では、会話型ＡＩプラットフォームは、特定のユーザとの対話を含む非構造化データ（たとえばドキュメント又は他の非構造化データ構造）を維持し、これは、クエリに対する応答及び／又は構造化メモリ向けのデータ（たとえば短期記憶）を生成するように使用され得る。そのような実例では、ユーザとの対話は、会話型ＡＩプラットフォームとユーザとの間の通信を表す文字データ（たとえば「ロスアンゼルスの今の天気は？」、「ロスアンゼルスの今の天気は晴で２２．２℃（７２°Ｆ）です」）を含む。一実施例では、非構造化データは、会話型ＡＩプラットフォームと特定のユーザとの間の対話（たとえば通知、クエリ、及び応答）の記録及び／又はログを含有しているドキュメントを含む。

多様な実施例において、会話型ＡＩプラットフォームによって維持される構造化メモリは、定義されたキー値ペアのセットを含む。実例の１つでは、会話型ＡＩプラットフォームは、会話型ＡＩプラットフォームがクエリに応答することを可能にするための、クエリに関連付けられたインテント及びスロットを有する、スロットとトレーニングされた分類器タグ・クエリとのセットを含む、データ構造（たとえばキー値ペアを定義するＪａｖａＳｃｒｉｐｔ（登録商標）オブジェクト表記法（ＪＳＯＮ：ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）データ・オブジェクトとして記憶されたデータベース）を維持する。具体例では、ユーザが「居住地の方向は？」というクエリを与え、自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）モデルが、クエリ（たとえば「居住地」の位置）に関連付けられたインテント及び１つ又は複数のスロットにタグを付け（たとえばデータを取り出し）、次いで、会話型ＡＩプラットフォームが、クエリに対する応答を生成するために構造化データからデータ（たとえば「居住地」に関連付けられた住所）を取り出す。

多様な実施例において、会話型ＡＩプラットフォーム及び／又は同プラットフォームの自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）アプリケーションなどの構成要素にアクティブ化トリガが供給され、ＡＳＲアプリケーションは、会話型ＡＩプラットフォームの対話マネージャに、クエリ及びユーザ識別情報の文字表現を供給する。多様な実施例において、対話マネージャは、ユーザに関連付けられたパーソナル化データを維持し、パーソナル化データにより、会話型ＡＩプラットフォームは、クエリに対する応答を生成して、後続の文脈のクエリを支援することが可能になる。加えて、一実施例では、パーソナル化データにより、会話型ＡＩプラットフォームは、自然言語理解モデルに少なくとも部分的に基づく抽出質問応答（ＱｎＡ）モデルを使用して、非構造化データ（たとえばユーザとの対話の履歴を含有しているドキュメント）からの応答に使用されているデータを抽出することが可能になる。少なくとも１つの実例において、ＱｎＡモデルはユーザに関するパーソナル化データを生成し、これは、１人又は複数の他のユーザと分離して記憶され得る。

一実施例では、ユーザは、情報を記憶したり取り出したりするために会話型ＡＩプラットフォームと対話する。たとえば、ユーザは、情報（たとえば、「明日の正午に会議があることを覚えておく」）を記憶するように会話型ＡＩプラットフォームに命令することができる。そのような実例では、対話マネージャは、後の検索のために非構造メモリに情報を記憶する。多様な実施例において、ユーザが、後に、この情報を求めるクエリ（たとえば「会議は明日の何時？」）を供給すると、会話型ＡＩプラットフォームは、クエリにラベル（たとえばクエリを表す文字データに少なくとも部分的に基づくスロット値）を付け、ラベルに少なくとも部分的に基づいて構造化データを検索する。構造化データの検索が失敗した場合には、ＱｎＡモデルは、ユーザに関連付けられた非構造化データを（たとえば、非構造化データに関連付けられたユーザ識別子に少なくとも部分的に基づいて）検索してよい。多様な実施例において、非構造化データから抽出されたデータは応答を生成するために使用される。上記の実例に戻って、以下でより詳細に説明されるように、ＱｎＡモデルが、非構造化データから会議時間として「正午」を抽出し、会話型ＡＩプラットフォームが、抽出された値を応答に含めて、テキスト発語化アプリケーションに応答を供給する。

多様な実施例において、ＱｎＡモデルが、スロットに関連付けられたデータ（たとえばクエリで要求されたデータ）を抽出することができない場合、会話型ＡＩプラットフォームは、未知の値（たとえば値が未定義であるか、且つ／又は非構造化データから抽出されないスロット・タグ）に関してユーザへのクエリを生成してよい。たとえば、ユーザが「私の好みのレストランに料理を注文する」と要求し、ＱｎＡモデルが、「好みのレストラン」というスロットに関連付けられたデータを抽出することができない（たとえば、非構造化データから値が抽出されない、且つ／又は抽出された値は信頼度がしきい値未満の値に関連付けられている）場合には、会話型ＡＩプラットフォームは、ユーザに、「お好みのレストランはどちらですか？」というクエリを含む応答を生成してよい。そのような実例では、会話型ＡＩプラットフォームは、ユーザの応答を、構造化データ（たとえばスロットがキー値ペアとして定義されている場合）及び／又は非構造化データに記憶する。このように、会話型ＡＩプラットフォームは、多様な実施例において、応答を生成するとともに、他の非公開領域のクエリに関連する、欠落した、且つ／又は未定義のスロット値を明確にするために、対話履歴を表す非構造化データを使用する。たとえば、ＱｎＡモデルは、第１の領域に関連付けられた非構造化データ（たとえば天気、居住地、料理の注文）からデータを抽出し、抽出された値を第２の領域（たとえばナビゲーション方向）に使用することができる。

図１を参照すると、図１は本開示のいくつかの実施例による会話型ＡＩプラットフォーム１００の実例である。この構成及び本明細書で説明される他の構成は、実例としてのみ表明されたことを理解されたい。他の構成及び構成要素（たとえば、装置、インターフェース、機能、命令、機能の集約など）は、示されたものに加えて、又は代わりに使用され得、いくつかの構成要素は、全体を省略されているものもある。さらに、本明細書で説明される構成要素の多くは、離散的又は分散化された構成要素として、又は他の構成要素と併せて、且つ任意の好適な組合せ及び配置で実施され得る、機能的エンティティである。エンティティによって遂行されているような、本明細書で説明される多様な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって遂行され得る。たとえば、多様な機能は、メモリに記憶された命令を実行するプロセッサによって、遂行され得る。いくつかの実施例において、システム１００は、本明細書でより詳細に説明される図６の実例のコンピュータ・デバイス６００及び／又は図７の実例のデータ・センタ７００と類似の特徴、機能、及び／又は構成要素を含み得る。

多様な実施例において、アクティブ化トリガ１３２は会話型ＡＩプラットフォーム１００の構成要素によって取得される。アクティブ化トリガ１３２は、たとえばジェスチャ、トリガ語及び／又は慣用句、唇の動き、カメラの凝視、パスコード、バイオメトリック情報の提供などの１つ又は複数のアクション、並びに／或いは会話型ＡＩプラットフォーム１００又は以下でより詳細に説明されるような同プラットフォームのホスト・デバイス４０６及び／又は５０６などの構成要素を実行するシステムの１つ又は複数のセンサによってキャプチャされ得る他のアクションを含み得る。一実施例では、会話型ＡＩプラットフォーム１００がアクティブ化トリガ１３２を検出した結果として、自動音声認識（ＡＳＲ）１０２が起動されよい。実例の１つでは、会話型ＡＩプラットフォームに接続されたマイクロフォンは、アクティブ化トリガ１３２に応答して、１人又は複数のユーザの音声をキャプチャする。別の実例では、アクティブ化トリガ１３２によって、会話型ＡＩプラットフォームが、ある時間間隔中に（たとえばアクティブ化トリガ１３２が検出される前及び／又は検出された後に）キャプチャされたセンサ・データを取得する。

多様な実施例において、会話型ＡＩプラットフォーム１００は、アクティブ化トリガ１３２に関連付けられた特定のユーザ及び／又はアクティブ化トリガ１３２に関連付けられたセンサ・データを決定する（たとえば話者識別、顔認識、ログイン認証情報など）。実例の１つでは、アクティブ化トリガ１３２及び／又はユーザから取得されたクエリに関連付けられたユーザ識別情報（たとえばユーザＩＤ）を決定するために、映像データ及び／又は音声データが使用される。別の実例では、ユーザは、会話型ＡＩプラットフォームがアクティブ化トリガを検出する前に、会話型ＡＩプラットフォームにログイン認証情報又は他の識別情報を提供する。さらに別の実施例では、ホスト・デバイス又は他のコンピュータ・デバイスが、アクティブ化トリガ１３２を検出して、ＡＳＲ１０２用の会話型ＡＩプラットフォームにセンサ・データを供給する。

多様な実施例において、ＡＳＲ１０２は、音声データを、会話型ＡＩプラットフォーム１００及び／又は対話マネージャ１０４など同プラットフォームの構成要素によって使用するためのテキストに変換する。ある実例では、ＡＳＲ１０２は、音声データを、対応する文字データ又は会話型ＡＩプラットフォーム１００によって使用可能な他のデータに変換するソフトウェア又は他の実行可能コードを含み得る。多様な実施例において、会話型ＡＩプラットフォーム１００がユーザ識別情報に関連付けられたパーソナル化情報（たとえば、ドキュメント及び／又は他のユーザデータ）を使用できるように、センサ・データ（たとえばもたらされたテキスト・クエリ）に対してＡＳＲ１０２を実行して取得されたデータがユーザ識別情報に関連付けられてよい。一実施例では、ユーザ識別情報は、コンピュータ・ビジョン、音声検出、ユーザ・ログイン情報などに少なくとも部分的に基づいて決定され、会話型ＡＩプラットフォーム１００は、特定のユーザを会話型ＡＩプラットフォーム１００の１人又は複数の他のユーザに対して一意的に識別するためにユーザ識別情報を使用する。多様な実施例において、ユーザ識別情報は、複数の構造化データ構造（たとえば長期記憶１１２及び／又は短期記憶１１４）及び／又は複数の非構造化データ構造（たとえばドキュメント１２４）に関連付けられる。

多様な実施例において、会話型ＡＩプラットフォーム１００は、対話マネージャ１０４、パーソナル化情報１０８、長期記憶１１２、短期記憶１１４、ジョイント・インテント・スロット分類器１１６、質問応答（ＱｎＡ）モデル１１６、ドキュメント１２４、及び自然言語処理モデル１２０を含む。上記で説明されたように、図１に示された構成要素は、コンピュータ・システム（たとえばサーバ・コンピュータ）の１つ又は複数のプロセッサによって実行された結果として、コンピュータ・システムに、本開示で説明された多様な動作を実行させるソース・コード又は他の実行可能な論理を含む。実例の１つでは、対話マネージャ１０４は、テキスト・クエリを取得し、長期記憶１１２、短期記憶１１４、ジョイント・インテント・スロット分類器１１６、質問応答（ＱｎＡ）モデル１１６、ドキュメント１２４、及び／又は自然言語処理モデル１２０のうちの１つ又は複数を使用して応答を生成する。

多様な実施例において、パーソナル化情報１０８により、対話マネージャ１０４は、テキスト・クエリがパーソナル化クエリ又は非パーソナル化クエリを含んでいるかどうかを決定することが可能になる。実例の１つでは、テキスト・クエリ「タイマを１分にセットしてください」は非パーソナル化クエリと見なされ、テキスト・クエリ「居住地の天気は？」はパーソナル化クエリと見なされる。多様な実施例において、長期記憶１１２、短期記憶１１４、及び／又はドキュメント１２４からのデータを含むクエリに対する応答はパーソナル化クエリである。一実施例では、ジョイント・インテント・スロット分類器１１６が、テキスト・クエリに含まれる１つ又は複数のスロットを分類し（たとえばタグを付け）、対話マネージャ１０４が、クエリに関連付けられた分類に少なくとも部分的に基づいて、クエリがパーソナル化クエリかどうかを決定する。実例の１つでは、ジョイント・インテント・スロット分類器１１６は、位置、領域、発話の構成要素、クエリのタイプなど、クエリの１つ又は複数の構成要素を分類するためのトレーニングされたモデルを含む。

一実施例では、テキスト・クエリがパーソナル化クエリを含む場合には、対話マネージャ１０４は、ジョイント・インテント・スロット分類器１１６から、タグ付きスロット（たとえば分類）に少なくとも部分的に基づいて、長期記憶１１２及び／又は短期記憶１１４を検索する。ある実例では、テキスト・クエリは、「居住地の天気はどうですか？」というクエリを含み、ジョイント・インテント・スロット分類器１１６が「居住地」の位置に未知というタグを付けた場合には、対話マネージャ１０４は、居住地というタグを付けられたスロットの長期記憶１１２を検索する。そのような実例では、長期記憶１１２はキー値ペアを含み、ここに「居住地」というスロット（たとえばキー）が定義されている。多様な実施例において、長期記憶１１２及び短期記憶１１４は、タグ及び／又はキーと、関連付けられた値とを含むデータ構造（たとえばＪＳＯＮデータ・オブジェクト）を含む。上記の実例に戻って、「居住地」というキーは、長期記憶１１２の中に、対応する値「サンタクララ」を有し得る。多様な実施例において、キー及び／又は値が長期記憶１１２及び／又は短期記憶１１４に含まれていなければ、対話マネージャ１０４は、ＱｎＡモデル１１８に、未知の位置／値（たとえば「居住地」）を求めてドキュメント１２４を検索させる。

一実施例では、ジョイント・インテント・スロット分類器１１６は、テキスト・クエリのインテントを決定する。テキスト・クエリは、ある実例では、データを記憶するようにとのインテント（たとえば「リマインダに来週のボストンの会議を入れてください」）を含む。そのような実例では、対話マネージャ１０４は、テキスト・クエリの情報（たとえば会議の開催地としての「ボストン」）を、後に取り出すことができるように、ドキュメント１２４、短期記憶１１４、及び／又は長期記憶１１２に記憶する。一実施例では、対話マネージャ１０４は、少なくともドキュメント１２４、短期記憶１１４、及び／又は長期記憶１１２からの１つ又は複数の要素に関連付けられたデータを取得することによって、テキスト・クエリの１つ又は複数の要素を明確にし得る。上記の実例に戻って、後に、ユーザが「来週の会議の開催地はどこですか？」と尋ねたら、対話マネージャ１０４は、ジョイント・インテント・スロット分類器１１６及びテキスト・クエリから取得されたデータに少なくとも部分的に基づいて、会議の開催地を明確にするように決定してよい。

多様な実施例において、対話マネージャ１０４は、テキスト・クエリを明確にするために長期記憶１１２を検索する（たとえば「会議の開催地」というキーに関する値「ボストン」を検索する）。その上、そのような実施例では、長期記憶１１２の検索が結果を返さなければ、対話マネージャ１０４はＱｎＡモデル１１８にドキュメント１２４を検索させる。ある実例では、ＱｎＡモデル１１８は、テキスト・クエリに少なくとも部分的に基づいてドキュメント１２４を検索するようにトレーニングされた１つ又は複数のモデルを含む。多様な実施例において、ＱｎＡモデル１１８は、非公開領域の質問応答及び／又は公開領域の質問応答を実行する。加えて、多様な実施例において、ＱｎＡモデル１１８によってドキュメント１２４から取得されたデータは、領域にわたる検索のために使用され得る。ある実例では、第１の領域（たとえばナビゲーション）の内部の、「居住地の方向は？」というテキスト・クエリによって表される、ユーザから与えられたクエリに対する応答は、対話マネージャ１０４によって、「居住地」に対応するデータに少なくとも部分的に基づいて、第２の領域（たとえば天気）から生成される。

検索が結果を返す（たとえば、スロットに対応するデータが、ドキュメント１２４、短期記憶１１４、及び／又は長期記憶１１２から取得される）実施例では、テキスト・クエリが修正されて、自然言語処理（ＮＬＰ）モデル１２０に供給される。実例の１つでは、「私の出身地の天気は？」というテキスト・クエリは、値「サンタクララ」が１つ又は複数のドキュメント１２４を検索した結果としてＱｎＡモデル１１８から取得されて、「サンタクララの天気は？」に修正される。多様な実施例において、対話マネージャ１０４は、ジョイント・インテント・スロット分類器１１６によって識別された１つ又は複数のスロットに関連付けられたデータを取得できなかった場合には、ユーザからデータを取得するための応答を生成する。上記の実例に戻って、「出身地」という位置が構造化データ構造（たとえば長期記憶１１２）又は非構造化データ構造（たとえばドキュメント１２４）に記憶されていなければ、対話マネージャは、「出身地」に関連付けられた値を取得するための応答（たとえば「出身地はどちらですか？」）を生成する。

多様な実施例において、（たとえば、スロットに関連付けられたデータが構造化データ及び／又は非構造化データから取得されたとき）修正されたテキスト・クエリが、次いで、応答を生成するために１つ又は複数のＮＬＰモデル１２０に供給される。その上、多様な実施例において、テキスト・クエリ及び応答は１つ又は複数のドキュメント１２４に記憶される。たとえば、特定のユーザから取得されたクエリと、特定のユーザ向けに生成された応答とが、ユーザに関連付けられた特定のドキュメントに記憶される。

ここで図２及び図３を参照すると、本明細書で説明される方法２００及び３００の各ブロックは、ハードウェア、ファームウェア、及び／又はソフトウェアの任意の組合せを使用して実行され得る計算プロセスを含む。たとえば、多様な機能は、メモリに記憶された命令を実行するプロセッサによって、遂行され得る。これらの方法はまた、コンピュータ記憶媒体に記憶された、コンピュータが使用可能な命令として具現化され得る。これらの方法は、少数の例を挙げれば、スタンドアローンのアプリケーション、（スタンドアローンの、若しくは別のホストされるサービスとの組合せの）サービス又はホストされるサービス、又は別の製品へのプラグ・インによって、提供され得る。加えて、方法２００及び３００は、図１の会話型ＡＩプラットフォーム１００を参照しながら例として説明される。しかしながら、これらの方法は、それだけには限らないが、本明細書で説明したものを含む、任意の１つのシステム又はシステムの組合せによって、付加的に、又は別法として実行され得る。その上、方法２００及び／又は３００のブロックは、多様な実施例において、連続して、且つ／又は並行して実行され、ブロックが除去されてよく、且つ／又は方法２００及び３００に対して、さらなるステップ又は動作が追加されてもよい。

図２は、本開示のいくつかの実施例による、会話型ＡＩプラットフォームによってクエリに対する応答を生成するための方法２００を示す流れ図である。方法２００は、ブロックＢ２０２に、会話型ＡＩプラットフォームのインスタンスと通信可能に結合されたユーザ・デバイスに関連付けられた、音声ストリーム、文字ストリーム、及び／又は映像ストリームのうちの１つ又は複数に少なくとも部分的に基づいて生成されたクエリを受信することを含む。たとえばユーザ・デバイス４０４を使用して生成された音声、映像、及び／又は文字ストリームは、図４及び図５に関連して以下でより詳細に説明されるように、たとえばＡＩエージェント・デバイス４０２によって受信される。多様な実施例において、クエリは、ＡＳＲアルゴリズムによって、音声、映像に少なくとも部分的に基づいて生成されたテキスト、及び／又はユーザからキャプチャされたテキスト若しくは取得されたテキストを含む。

一実施例では、方法２００を実行するシステムは、ブロック２０４において、クエリの１つ又は複数の部分を明確にすると決定する。実例の１つでは、テキスト・クエリの１つ又は複数の用語は、未知のもの（たとえば未知の位置、未知の人、未知の物体など）としてタグを付けられ、方法２００を実行するシステムは、それらの用語を明確にしようとする。たとえば「私の車のエンジンをかけてください」又は「外の天気は？」というテキスト・クエリは、曖昧な用語「車」及び「外」を含み、会話型ＡＩプラットフォームは、クエリに対する応答を生成するためにこれらを明確にする。

一実施例では、方法２００を実行するシステムは、ブロック２０６において、用語を明確にするためのデータが構造化メモリに記憶されているかどうかを決定する。実例の１つでは、会話型ＡＩプラットフォームは、構造化データ構造（たとえばＪＳＯＮファイル、データベース、キー値記憶など）の検索を実行する。多様な実施例において、構造化メモリの検索はキー検索を含む。たとえば、構造化メモリは、明確にするべきクエリの用語（たとえば未知の物体「車」又は未知の位置「外」）から検索するキーが取得されるキー値ペアを含む。

一実施例では、検索結果が値を返すと、プロセス２００を実行するシステムはブロック２０８へと続き、構造化メモリから取得されたデータに少なくとも部分的に基づいて応答を生成する。ある実例では、明確にするべき用語が、構造化メモリから取得された値で置換され、１つ又は複数のＮＬＰモデルに供給される。上記の実例に戻って、「外の天気は？」というクエリは、「外」に関連付けられた構造化メモリから取得された値（たとえばユーザの位置）に少なくとも部分的に基づいて「外」を置換するように修正される。

多様な実施例において、結果が取得されない場合、結果は定義されず、結果に関連付けられた信頼値はしきい値を下回るか若しくは上回り、又は、結果は、クエリを修正する際の用途に適するものではなく、方法２００を実行するシステムはブロック２１０に続く。方法２００を実行するシステムは、ブロック２１０において、クエリのうちの１つ又は複数の用語を明確にするためのデータを求めて非構造化メモリの検索を実行する。多様な実施例において、トレーニングされたＱｎＡモデルは、非構造化メモリ（たとえばドキュメントなどの非構造化データ構造）の検索を実行する。一実施例では、ＱｎＡモデルが検索クエリに対する応答を返すと、方法２００を実行するシステムは、ブロック２１２へと続き、非構造化メモリから取得された結果に少なくとも部分的に基づいて応答を生成する。上記の実例では、非構造化メモリがユーザの位置を含む場合には、「外の天気は？」というクエリは、非構造化メモリから取得された値に少なくとも部分的に基づいて「外」を置換するように修正される。

多様な実施例において、結果が取得されない場合、結果は定義されず、結果に関連付けられた信頼値はしきい値を下回るか若しくは上回り、又は、結果は、クエリを修正する際の用途に適するものではなく、方法２００を実行するシステムはブロック２１４へと続き、データを取得するための応答を生成する。たとえば、クエリが構造化メモリと非構造化メモリとのどちらにも定義されていない位置又はイベントを含む場合には、方法２００を実行するシステムは、データを取得するためのクエリに応答して第２のクエリを生成する。具体的には、上記の実例に戻って、「外」という位置が構造化メモリ及び非構造化メモリの検索から取得されない場合には、システムによって生成される応答は、「外」の位置を決定するための第２のクエリ（たとえば「ごめんなさい、その情報は分かりません。今いる都市を教えてください」）を含む。

一実施例では、ブロック２１６において、方法２００を実行するシステムは、テキスト発語化アルゴリズムに少なくとも部分的に基づいて、応答に対応する音声データを生成する。ある実例では、システムによって生成された応答（たとえばブロック２０８、２１２、及び／又は２１４のうちの１つ又は複数において生成された応答）は、ユーザに対する応答で使用される音声データ又は他のデータを生成するために、テキスト発語化アルゴリズムに供給される。

図３は、本開示のいくつかの実施例による、アプリケーション内でＡＩエージェントをインスタンス生成するための方法３００を示すフロー図である。方法３００は、ブロックＢ３０２に、アプリケーションのインスタンスに対応する仮想エージェントをインスタンス生成することを含む。たとえば、ＡＩエージェントは、クライアント・アプリケーション４１６のインスタンス内で通信するために、インスタンス生成され得る。別の実例では、ＡＩエージェントは会話型ＡＩプラットフォームの構成要素である。

方法３００は、ブロックＢ３０４に、アプリケーションのインスタンスと通信可能に結合されているユーザ・デバイスに関連付けられた、音声ストリーム、文字ストリーム、又は映像ストリームのうちの１つ又は複数を表す、第１のデータを受信することを含む。たとえば、ユーザ・デバイス４０４を使用して生成された、音声、映像、及び／又は文字ストリームが、たとえばＡＩエージェント・デバイス４０２によって受信され得る。

方法３００は、ブロックＢ３０６に、自然言語処理を用いて第１のデータを分析することを含む。たとえば、受信されたデータは、ＡＩエンジン４１２（たとえば、それだけには限らないが、１つ又は複数の並列処理ユニットによって実行される）によって分析され得、このことは、自然言語処理をデータに適用することを含み得る。

方法３００は、ブロックＢ３０８に、第１のデータに応答し、仮想エージェントに対応する文字出力を表す、第２のデータを生成することを含む。たとえば、ＡＩエンジン４１２は、ＡＩエージェントの口頭の応答に対応する文字を生成し得る。多様な実施例において、文字データは、上記で説明されたようにクエリを含む。

方法３００は、ブロックＢ３１０に、音声データを生成するために、第２のデータをテキスト発語化アルゴリズムに適用することを含む。たとえば、ＡＩエージェントの応答又は通信に対応する文字データは、音声データを生成するために、テキスト発語化アルゴリズムに適用され得る。

図４を参照すると、図４は、本開示のいくつかの実施例による、会話型ＡＩプラットフォーム１００（代替として本明細書では「システム４００」と呼ばれる）の実例を示す。この構成及び本明細書で説明される他の構成は、実例としてのみ表明されたことを理解されたい。他の構成及び構成要素（たとえば、装置、インターフェース、機能、命令、機能の集約など）は、示されたものに加えて又は代わりに使用され得、いくつかの構成要素は、全体を省略されているものもある。さらに、本明細書で説明される構成要素の多くは、離散的又は分散化された構成要素として、又は他の構成要素と併せて、且つ任意の好適な組合せ及び配置で、実施され得る、機能的エンティティである。エンティティによって遂行されているような、本明細書で説明される多様な機能は、ハードウェア、ファームウェア、及び／又はソフトウェアによって遂行され得る。たとえば、多様な機能は、メモリに記憶された命令を実行するプロセッサによって、遂行され得る。いくつかの実施例において、本明細書で図４に関して説明された特徴、機能、及び／又は構成要素のうちの少なくともいくつかは、本明細書でより詳細に説明される、図６の実例のコンピュータ・デバイス６００などの１つ又は複数のコンピュータ・デバイス及び／又は図７の実例のデータ・センタ７００を使用して実施され得る。他の実施例では、本明細書で図４に関して説明された機能、機能、及び／又は構成要素のうちの少なくともいくつかは、本明細書で図４に関して説明されたもの以外の追加又は代替の機能、機能、及び／又は構成要素を使用して実施され得る。

システム４００は、他にもある中の、ＡＩデバイス４０２、ユーザ・デバイス４０４、及び／又はホスト・デバイス４０６を含み得る。単一のＡＩエージェント・デバイス４０２、単一のユーザ・デバイス４０４、及び／又は単一のホスト・デバイス４０６のみが、図４に示されているが、このことは、限定することを意図されておらず、任意の数のデバイスがシステム４００内で実施され得る。加えて、ＡＩエージェント・デバイス４０２、ユーザ・デバイス４０４、及びホスト・デバイス４０６の各々が、互いから分離したデバイスとして図示されているが、このことは、限定することを意図されていない。たとえば、実施例により、１つ又は複数のデバイスが、単一のデバイス（又は、クラウド・コンピューティング環境内での一連のデバイスのように）に一体化され得る。非限定的な実例として、会話型ＡＩプラットフォームでは、ＡＩエージェント・デバイス４０２は、ＡＩエージェントが、ユーザのパーソナル・デバイスを含み得るユーザ・デバイス４０４と通信するのを支援する１つ又は複数のデバイス（たとえば、クラウド・コンピューティング環境サーバ）を含み得、ホスト・デバイス４０６は、（たとえば、１つ又は複数のアプリケーション・プログラム・インターフェース（ＡＰＩ）を含むホスト・アプリケーション４２６を用いて）会話型ＡＩプラットフォームをホストする１つ又は複数のデバイス（たとえば、クラウド・コンピューティング環境内サーバ）を含み得る。別の非限定的な実例として、自動車用アプリケーションでは、ＡＩエージェント・デバイス４０２、ユーザ・デバイス４０４、及びホスト・デバイス４０６は、単一のデバイス（たとえば、車両内のスーパーコンピュータ）を含み得る、又は、車両によって位置を定められるデバイス（たとえば、スーパーコンピュータ）と、更新しさらに複雑なタスクに応答するなどのために、車両によって位置づけられるデバイスと通信する、遠隔操作によって位置を定められるデバイス（たとえば、クラウド・コンピューティング環境内の１つ又は複数のサーバ）とを、組み合わせたものを含み得る。したがって、ＡＩエージェント・デバイス４０２、ユーザ・デバイス４０４、ホスト・デバイス４０６は、同一のユーザ又は企業、異なるユーザ若しくは企業及び／又はその組合せによって、所有され、運転され、及び／又は支援され得る。

ＡＩエージェント・デバイス４０２は、サーバ、ネットワーク接続ストレージ（ＮＡＳ：ｎｅｔｗｏｒｋａｔｔａｃｈｅｄｓｔｏｒａｇｅ）、ＡＰＩ、バックエンド・デバイス、及び／又は別のタイプのデバイスを含み得る。ＡＩエージェント・デバイス４０２は、本明細書で説明されるもののような、会話型ＡＩプラットフォームの機能を支援し得る。したがって、いくつかの実施例では、ＡＩエージェント・デバイス４０２の構成要素、特徴、及び／又は機能のうちのいくつか又は全てが、ユーザ・デバイス４０４上で、ローカルで実行され得る。たとえば、ユーザ・デバイス４０４上での、ユーザとＡＩエージェントとの間の、あるタスク、要求、対話、及び／又は会話が、ユーザ・デバイス４０４上で、ローカルで取り扱われ得る。実施例では、ＡＩエージェントの構成要素、特徴、及び／又は機能のうちのいくつか又は全てが、ＡＩエージェント・デバイス４０２によって、ユーザ・デバイス４０４及び／又はホスト・デバイス４０６に対して、遠隔から実行され得る。たとえば、ユーザ・デバイス４０４及び／又はホスト・デバイス４０６からのデータは、ＡＩエージェント・デバイス４０２を用いて受信され処理され得、ＡＩエージェントによって応答又は通信される映像ストリーム、音声ストリーム、及び／又は文字ストリームは、ユーザ・デバイス４０４及び／又はホスト・デバイス４０６に送信され得る。

ユーザ・デバイス４０４は、スマートフォン、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、装着型デバイス、ゲーム・コンソール、ＡＩエージェント若しくはアシスタントを含み得るスマート・ホーム・デバイス、及び／又は別のタイプのデバイスを含み得る。いくつかの実例では、ユーザ・デバイス４０４は、デバイス（たとえば、スマートフォン及び通信可能に結合されたスマートウォッチ又は他の装着型デバイス）、及びそれと共に関連するアプリケーションを含み得、アプリケーションによる対話が１つ又は複数のデバイス（たとえば、スマートフォンのアプリケーションが通知をスマートウォッチのアプリケーションにプッシュ配信する、ユーザが入力をスマートウォッチに提供する、入力を表すデータが、スマートフォンを介してシステム４００の別のデバイスに渡される）を用いて実行され得ることを含む。

ホスト・デバイス４０６は、サーバ、ネットワーク接続ストレージ（ＮＡＳ）、ＡＰＩ、バックエンド・デバイス、本明細書で説明されるユーザ・デバイス４０４に類似しているデバイス、及び／又は別のタイプのデバイスを含み得る。ホスト・デバイス４０６は、たとえば、ユーザ・デバイス４０４を介して通信される、ＡＩエージェントと、１つ又は複数のエンド・ユーザとを対話させる、ホスト・アプリケーション４２６の機能を支援し得る。たとえば、会話型ＡＩプラットフォームでは、ホスト・デバイス４０６は会議システムをホストし得、ＡＩエージェント・デバイス４０２は特定の会議の参加者としてＡＩエージェントを支援し得、一方、ユーザ・デバイス４０４は会議の別の参加者としてユーザを支援し得る。別の実例として、ファスト・フード注文アプリケーションでは、ホスト・アプリケーション４２６は、ＡＩエージェントがユーザを１つ又は複数の商品を選択するためにメニューを案内することで支援する、対話型メニューを含み得る。そのような実施例によれば、ホスト・デバイス４０６は、レストランに（近傍に）ローカルに配置され得、たとえば、それだけには限らないが、注文装置、又はキオスクのＩ／Ｏ構成要素４２０に通信可能に結合されたコンピュータ・デバイスとして、実施され得る。ＡＩエージェント・デバイス４０２は、遠隔に配置され得、（且つ／又は遠隔で）ユーザ入力（たとえば、音声、文字、映像など）に基づいて生成されたデータを処理するために、且つ応答又は対話をＡＩエージェントよって生成するために使用され得る。１つ又は複数の実施例によれば、ユーザ・デバイス４０４は、必要とされないことがあり、別法として、ユーザ・デバイス４０４は、ホスト・デバイス１０６と対話するためのユーザのデバイス（たとえば、タッチ入力をホスト・デバイス５０６に関連付けられたクライアント・アプリケーション５１６Ｂに提供する）であり得る。

ＡＩエージェント・デバイス４０２、ユーザ・デバイス４０４、ホスト・デバイス４０６、及び／又は他のシステム４００の構成要素は、ネットワーク４０８を通じて通信可能であり得る。ネットワークは、広域ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）（たとえば、インターネット、公衆交換電話網（ＰＳＴＮ）など）、ローカル・エリア・ネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）（たとえば、Ｗｉ－Ｆｉ、ＺｉｇＢｅｅ、Ｚ－Ｗａｖｅ、ブルートゥース、ブルートゥース・ロー・エナジー（ＢＬＥ：ＢｌｕｅｔｏｏｔｈＬｏｗＥｎｅｒｇｙ）、イーサネット（登録商標）など）、低出力広域ネットワーク（ＬＰＷＡＮ：ｌｏｗ－ｐｏｗｅｒｗｉｄｅ－ａｒｅａｎｅｔｗｏｒｋ）（たとえば、ＬｏＲａＷＡＮ、Ｓｉｇｆｏｘなど）、グローバル・ナビゲーション衛星システム（ＧＮＳＳ：ｇｌｏｂａｌｎａｖｉｇａｔｉｏｎｓａｔｅｌｌｉｔｅｓｙｓｔｅｍ）ネットワーク（たとえば、全地球測位システム（ＧＰＳ：ｇｌｏｂａｌｐｏｓｉｓｉｏｎｉｎｇｓｙｓｔｅｍ））、及び／又は別のネットワーク・タイプを含み得る。いくつかの実施例では、ＡＩエージェント・デバイス４０２、ユーザ・デバイス４０４、及び／又はホスト・デバイス４０６は、たとえば、システム４００がクラウド・ベースの又は分散化されたコンピュータ環境内で実施されている場合、ＷＡＮ（たとえば、インターネット）を通じてＬＡＮ（たとえば、Ｗｉ－Ｆｉ、イーサネット（登録商標）など）を介して及び／又はセルラ・ネットワーク（たとえば、４Ｇ、ＬＴＥ、５Ｇなど）を介して通信し得る。

通信構成要素４１０、４１８、及び／又は４２４は、１つ又は複数のネットワーク４０８を横断して通信するための、それだけには限らないが本明細書で説明されるもののような、１つ又は複数の構成要素、特徴、及び／又は機能を含み得る。非限定的な実例として、ユーザ・デバイス４０４は、ＡＩエージェント・デバイス４０２及び／又はホスト・デバイス４０６と通信するために、イーサネット（登録商標）及び／又はルータを介したＷｉ－Ｆｉ接続、或いは１つ又は複数のセル・タワーを介したセルラ接続を使用し、インターネットにアクセスし得る。ＡＩエージェント・デバイス４０２及び／又はホスト・デバイス４０６は、たとえば、クラウド・ベースのデータ・センタ内のサーバ又は他のコンピュータ・デバイスに対応する場合、イーサネット（登録商標）を通じてインターネットにアクセスし得る。したがって、通信構成要素４１０、４１８、及び／又は４２４は、１つ又は複数のネットワーク・タイプを通じて、通信するように構成され得、１つ又は複数のネットワーク・タイプを通じて、システム４００の多様なデバイス間の通信を可能にし得る。クライアント・アプリケーション４１６Ａ、クライアント・アプリケーション４１６Ｂ、及びホスト・アプリケーション４２６は、関連するアプリケーションの異なるインスタンスに対応し得る。

ＡＩエージェント・デバイス４０２は、任意の数の並列処理ユニットを、入力されてくるデータを分析すること、データを処理すること、及び出力データ、たとえば、テキスト発語化音声データ及び対応する仮想環境内のＡＩエージェントへの変更、を決定することに活用し得、レンダリングされ得、表示及び／又は出力するために１つ又は複数のユーザ・デバイス４０４へ送信され得る（たとえば、映像ストリーム、文字ストリーム、及び／又は音声ストリーム）。好適な並列処理ユニットが、グラフィック処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）で加速されるＡＩ環境で、１つ又は複数のＧＰＵを含み得る。ＧＰＵは、本明細書で説明されるようなＡＩエンジン４１２及び／又はレンダラ４１４によって、並びに／或いは他のシステム４００の構成要素によって、活用され得る。加えて、いくつかの実施例では、ＡＩエージェント・デバイス４０２及び／又は他のデバイスは、映像データの送信を最適化するために、映像圧縮技術を活用し得る。１つ又は複数の実施例では、好適な映像圧縮技術は、会話型ＡＩプラットフォームに最適化された圧縮技術を含み得る。そのような技術は、その全体が参照により本明細書により組み込まれている、２０２０年４月１５日に出願した米国仮特許出願第６３／０１０，５１１号で示されたような、構成要素、特徴、及び／又は機能のうちのいくつか又は全てを含む。

ＡＩエージェント・デバイス４０２のＡＩエンジン４１２は、何が文字的に、聴覚的に、及び／又は視覚的に通信されているのかを決定するために、且つＡＩエージェントによる応答又は出力が必要であるか否か、出力が決定された場合、どんな応答が出力されるべきか、及び／又は応答をどのように出力するか（たとえば、ＡＩエージェントの口調、感情、ジェスチャ、アニメーションなどを決定する）を決定するために、入力してくる文字、音声、及び／又は画像データ（たとえば、多様式のデータ）を処理し得る。いくつかの実施例では、ＡＩエンジン４１２は、ＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎ製のＪＡＲＶＩＳＡＩプラットフォームに対応し、又は類似していることがあり、且つ／又は各々がその全体が参照により本明細書により組み込まれている、２０１７年１１月１０日に出願した米国特許出願第１５／８０９，８４９号、２０１８年９月２０日に出願した米国特許出願第１６／１３７，０６４号、２０１８年３月２６日に出願した米国仮特許出願第６２／６４８，３５８号、２０１８年１０月８日に出願した米国仮特許出願第６２／７４２，９２３号、２０１９年３月２５日に出願した米国特許出願第１６／３６３，６４８号、２０２０年１月２７日に出願した米国特許出願第１６／７７３，８８３号、２０１９年１２月１６日に出願した米国仮特許出願第６２／９４８，７８９号、２０１９年１２月１６日に出願した米国仮特許出願第６２／９４８，７９３号、２０１９年１２月１６日に出願した米国仮特許出願第６２／９４８，７９６号、２０２０年４月２７日に出願した米国特許出願第１６／８５９号、及び／又は２０２０年５月５日に出願した米国特許出願第１６／８６７，３９５号に示されているような、構成要素、特徴、及び／若しくは機能のうちのいくつか又は全てを含み得る。

ＡＩエンジン４１２は、アプリケーション内部で、たとえば視覚的、聴覚的、機械的（ユーザ入力装置を介した）又は文字的な、応答又は通信を決定するために、状況における発話に伴うジェスチャ及び視線のような視覚的な手がかりを使用し得る。たとえば、ＡＩエンジン４１２は、能動的な発話者を識別するために、発話入力と一体化されている唇の位置及び動作を使用し得、視線は、発話者がＡＩエージェント、ユーザとして同じ場所にいる他の人たち、又はアプリケーションのインスタンスに参加している他の人たちと、関わっているか否かを把握するために使用され得る。視線及び唇の動作の組合せが、本明細書でより詳細に説明されるような、アクティブ化トリガに対応し得る。ＡＩエンジンの多モードのデータを融合させる能力が、ＡＩエージェントとの、同時の複数ユーザの複数状況での会話、たとえば従来のＡＩアシスタントとのすべて口頭での伝達より深い、状況の理解を与える会話を、可能にする。

たとえば、ＡＩエンジン４１２は、意思及びエンティティの分類、情緒分析、対話モデリング、領域及び達成のマッピングなどのような、発話タスクの任意の数の特徴を含み得る。いくつかの実施例では、ＡＩエンジン４１２は、入力してくる音声データを採集する、解読する、知覚する、且つ／又は意味を理解するために、自然言語処理（ＮＬＰ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）技術又は１つ若しくは複数のニューラル・ネットワーク・モデルを使用し得る。視覚のために、ＡＩエンジン４１２は、人、顔、及び／又は身体（ジェスチャ）の特徴の検出並びに追跡と、鍵となる身体又は顔の際立った特徴の検出と、身体のポーズ、ジェスチャ、唇の動き、視線、及び／又は他の特徴と、のうちの任意の数を含み得る。ＡＩエンジン４１２は、決定にいたるために、音声及び画像の両方を総合して分析する、融合された感覚認知、タスク、又はアルゴリズムをさらに含み得る。実施例では、発話、視覚、及び／又は融合されたタスクのうちのいくつか又は全てが、特定の使用事例又は実施例での高精度を達成するために、独自データに関してトレーニングされ得る、機械学習及び／又は深層学習モデル（たとえば、ＮＶＩＤＩＡのＪａｒｖｉｓ及び自然言語処理）を活用し得る。ＡＩエージェントは、ＡＩエンジン４１２によって管理される場合、クラウド・ベース環境の内部、データ・センタ内、及び／又はエッジに、配置され得る。

いくつかの実施例では、ＡＩエージェント・デバイス４０２は、ＡＩエージェントを生成し得、ＡＩエージェントによって通信が発生しない場合においても、たとえばレンダラ４１４を用いてレンダリングし得る。たとえば、レンダラ４１４は、アプリケーション・セッション中ＡＩエージェントが目下発話中でない、動作中でない、又はそうでなければユーザからの入力に応じて又は基づいて対話中でない場合でも、仮想環境内部の仮想ＡＩエージェントに対応する、画像又はグラフィカル・データを、やはりレンダリングし得る。この方法では、エンド・ユーザは、ＡＩエージェントのディスプレイ又は表示、及び対応する仮想環境をやはり視認し得、ＡＩエージェントが対話に利用可能であることを把握し得る。他の実施例では、ＡＩエージェントは、能動的に発話し、返答した場合にのみ、且つ／又はアクティブ化トリガが満足された後にのみ、表示又は提示され得る。

ＡＩエンジン４１２は、いくつかの実施例では、入力してくるデータをより大量に処理する前に、ＡＩエージェントのアクティブ化トリガを識別するためだけに、入力してくるデータを処理し得る。たとえば、プライバシの懸念、法律、及び／又は規則に従い、尊重するために、アクティブ化トリガは、ユーザ入力（発話のような）がキャッシュされ（又はそうでなければ記憶され）、実際に処理される前に、ＡＩエンジンによって監視され得る。アクティブ化トリガは、個別の実施例、環境、又はＡＩエージェントの位置、或いはユーザ・デバイス４０４又はユーザ・デバイス４０４に利用可能なタイプのＩ／Ｏ構成要素４２０により、異なり得る（たとえば、カメラが存在しない場合、アクティブ化トリガは、聴覚的のみであり得る）。いくつかの実施例では、アクティブ化トリガは、プライバシの懸念が尊重されることを保証するために、ＡＩエンジン４１２が、任意の照会又は会話への的確な対応のためより正確に目下の発話者を識別できるようにするために、且つ／又はより会話的な状況若しくは徴候（たとえば、会話中に、カメラを視認すること及び始動させるために発話することは、特定のトリガする単語又は句を発話するために会話を中断するよりも自然である）を許容するために、単一のトリガよりも多くのことを含み得る（たとえば、アクティブ化は、多モードでトリガすることが求められる）。たとえば、アクティブ化トリガは、ユーザがカメラを見ていること（たとえば、注視追跡）、及びユーザが話していること（たとえば、唇の動きを追跡することによって）を決定するために、画像データ（たとえば、ストリーミング映像）を解析することを含み得る。別のアクティブ化トリガは、ユーザが発話しているところであり、ユーザのジェスチャを決定しているところであることを、決定することを含み得る（たとえば、アクティブ化は、発話が聴かれ、手を揺らすなどのトリガするジェスチャが識別されたとき、発生し得る）。いくつかの実施例では、発話又は音の大きな発話が許されない（たとえば、図書館、宗教的な建物など）又はユーザが発話能力を持たないなどの環境において、アクティブ化トリガは、動作又はジェスチャ、及び／或いはデバイスへの入力（たとえば、ボタン、レバー、タッチ・インターフェースなど）を含み得る。しかしながら、他の実施例では、アクティブ化トリガは、単一の口頭でない、ジェスチャ、トリガ語、唇動作、カメラの凝視などのような、アクティブ化を含み得る。いくつかの実施例では、プライバシの懸念が問題ない、或いはユーザが音声及び／又は映像を継続的に収録することを選択している場合、いつユーザがＡＩエージェントに話しかけたかを決定するために、音声、文字、及び／又は映像が、やはり監視され得るにもかかわらず、トリガのアクティブ化が用いられないこともあり得る。

ある一定の国、地域、又は区域では、法律、規則、規制、及び／又はプライバシの懸念は、公共の空間での音声又は発話の継続的な録音を許容しないことがある。そのためアクティブ化トリガは、完全に視覚ベース、たとえばローリング・バッファを使用することであり得る。ある一定の国、地域、又は管轄の、法律、規則、規定、及び／又はプライバシの懸念が、私有財産に関する映像及び／又は音声の継続的な収録を許容しない場合があるが、映像及び／又は音声のローリング・バッファを収録し、アクティブ化トリガが存在するか否かを決定するために、そのローリング・バッファを処理することを許容し得る。任意の実施例では、アクティブ化トリガが満足された後、マイクロフォン、カメラ、及び／又は他のＩ／Ｏ構成要素４２０は、オープンされ（たとえば、トリガする事象の先のユーザ入力のために、傾聴する、監視する又は観察するためにアクティブ化される）得、データは、応答及び／又は他の通信を決定するために、ＡＩエンジン４１２によって処理され得る。データは、非アクティブ化トリガが満足されている間、処理を継続するために別のトリガを必要とする単一の往復の通信中に限定して、無期限に処理され得る（たとえば、停止、継続などのようなトリガ語、トリガ・ジェスチャ、発話の欠乏、動作、カメラを見ること、又は知覚される無活動のしきい値期間内の他の対話、など）。

入力してくるデータ、たとえば視覚的、文字的、聴覚的なデータなどは、ＡＩエージェント用に３次元（３Ｄ：ｔｈｒｅｅ－ｄｉｍｅｎｓｉｏｎａｌ）グラフィックスを用いて表現される、文字的、視覚的、及び／又は聴覚的応答又は通信を決定するために、ＡＩエンジン４１２によって解析され得る。たとえば、ＡＩエンジン４１２は、テキスト発語化処理用の出力文字を、音声データを生成するために、たとえば１つ又は複数の機械学習又は深層学習モデルを用いて、生成し得る。実施例では、オーディオ・データは、ユーザ・デバイス４０４に、ホスト・デバイス４０６を介して、スピーカ又はユーザ・デバイス４０４の別のＩ／Ｏ構成要素４２０によって出力するために、送信され得る。いくつかの実施例では、音声データは、仮想環境内のＡＩエージェントの挙動に影響を与えるために、用いられ得る。たとえば、音声データは、ＡＩエージェントが唇を音声と同調可能にさせるように、使用され得、その結果、ＡＩエージェントの発話が、人間相互間の会話に似ていて自然にＡＩエージェントから生じるように見える。これは、ＡＩエージェントによる音声出力に対応する、３Ｄグラフィカルの顔のアニメーションを動かし得る機械学習又は深層学習モデルを含み得る、音声から顔のアルゴリズム又は唇同期アルゴリズムを用いて果たされ得る。好適な音声から顔のアルゴリズムは、その全体が参照により本明細書により組み込まれている、２０１７年１１月２９日に出願した米国特許出願第１５／８２６，４３０号で示されたような、構成要素、特徴、及び／又は機能のうちのいくつか又は全てを含み得る。

したがって、ＡＩエージェントの唇は、音声データ、又は少なくとも音声表現の発話の部分、に対応するために、仮想環境で制御され得る。さらに、発話に加えて、背景雑音又は音声、音楽、口調、周囲雑音、他のＡＩエージェント、仮想ボット、及び／又は他のソースに対応する追加の音声データが存在し得る。最終的に、ＡＩエージェントの発話及び他の音声ソースを含む音声データは、たとえば音声ストリームとして、ユーザ・デバイス４０４へ（たとえば、実施例ではホスト・デバイス４０６を介して）、送信され得る。

音声に加えて、ＡＩエージェントによる応答又は通信は、仮想世界で表現され得る、シミュレートされた物理的動作、ジェスチャ、姿勢、ポーズなどを含み得る。ＡＩエージェントが配置されている仮想環境に加えて、外観、ジェスチャ、動作、姿勢、及び／又は他のＡＩエージェントに対応する情報は、グラフィカル・データによって表現され得る。このグラフィカル・データは、ディスプレイ４２２に表示するためにユーザ・デバイス４０４にストリームされ得る、表示データ又は画像データを生成するために、レンダラ４１４によってレンダリングされ得る。

ＡＩエンジン４１２は、入力してくるデータの分析、ＡＩエージェントの一般的典型又は個性、並びに／或いは決定された文字的、聴覚的、及び／又は視覚的なＡＩエージェントによる応答又は通信に基づいて、ＡＩエージェントのシミュレートされた物理的特性を決定し得る。たとえば、ＡＩエンジン４１２が、目下の発話者が怒っている又は悲しんでいると決定している場合、この情報は、適切に応答するように（たとえば、優しい、鼓舞する、又は慰める口調又は言葉遣いを使用して）ＡＩエージェントをシミュレートするために活用され得る。ＡＩエンジン４１２が、ある一定のジェスチャ又は姿勢がＡＩエージェントの発話される応答に適すると決定している場合、ＡＩエージェントは、仮想環境内でそのように制御され得る。そのように、ＡＩエージェントの身体及び／又は顔は、ＡＩエージェントが仮想カメラに感情を示し得るように（その独特の一連の感情を表す）、アニメーション化され得る。

ＡＩエージェントと同様に、ＡＩエージェントが配置される仮想環境は、応答中に支援するために、生成され得る。たとえば、個別の現実世界の付近の天気の要求を受け、天気が雨である場合、曇空及び降雨を伴う位置の仮想表現が生成され得、ＡＩエージェントは、ふさぎ込んで見えるようになされ得る（たとえば、うつむき、悲しい顔で）。同様に、ある歌が要求されている場合、ＡＩエージェントは、歌のビートに対して動き、又は旋回し得、歌を、たとえば唇を同期しながら、歌い得る。いくつかの実例では、仮想環境は、アプリケーションの単一のインスタンスの間中、又は単一の照会応答の通信の間、更新され得る。たとえば、追加の状況を提供するために、仮想環境は、ＡＩエージェントが、本質的に、ある仮想位置から別の位置にテレポートしたように見え得るように、新たな位置を反映するために変更され得る。いくつかの実施例では、説明が別の領域により好適に適合される場合、環境又は位置の変更に加えて、個別のＡＩエージェントが、さらに変化し得る。たとえば、ユーザが都市ロンドンの天気についての情報を求めている場合、天気ベースのＡＩエージェントは、ロンドンの空を背景とした輪郭に対応した、レンダリングされた仮想環境内に表示され得、ユーザがロンドンの歴史についての追加質問を尋ねている場合、歴史に焦点を合わされたＡＩエージェントは、ロンドンの歴史的建物の写真又はレンダリングされた画像の中に又は近くに表現され得る。

いくつかの実施例では、仮想環境は、文字又は文書の表示を含み得る。たとえば、ユーザが、バンク又は他の金融機関に関連付けられたＡＩエージェントと対話している場合、仮想環境は、ユーザによって要求された情報に対応する銀行取引明細書のグラフィカルな描画を背景に又は手に持って、立っているＡＩエージェントを含み得る。そのような実例では、ユーザとＡＩエージェントとの間の通信は、バンク情報がインデックス可能な形態で送信されないときよりも、且つたとえば銀行取引明細書を含む電子メールほど構造化されていないときよりも、安全であり得る。したがって、ＡＩエージェント・デバイス４０２からの視覚的、聴覚的、及び／又は文字的応答は、同一の情報の電子メール、ＳＭＳ、又は文字メッセージ通信よりも安全で個人専用であり得る。

いくつかの実施例では、ＡＩエージェントは、ユーザとの応答又は対話中に支援するために、仮想環境内のオブジェクト、特徴、又はアイテムと対話し得る。たとえば、対話中に支援するように説明を提供するために、ＡＩエージェントは、環境と仮想的に対話し得る。アプリケーションが建築計画を説明するために使用されている場合、コンピュータ支援設計（ＣＡＤ：ｃｏｍｐｕｔｅｒａｉｄｅｄｄｅｓｉｇｎ）アプリケーション・ファイルが、仮想環境の描画を生成するために、アクセスされ使用され得る。たとえば、建築計画は、ＡＩエージェントが計画又は計画の一部分／構成要素と対話し得るように、ＡＩエージェントの仮想環境内でインスタンス生成され得る。これは、建築計画の特徴を指し示すこと、又は建築計画の内部で若しくはそれに対して動き回ること、を含み得る。入力してくるデータが、計画の一部を修正する要求を含む場合、ＡＩエージェントは、ジェスチャを遂行し得、建築計画は、要求に従って修正され得る。たとえば、視覚的な手がかりが何もなしに、窓が言及されている場合、窓の位置及び窓の周囲の説明は、より少ない情報しか提供しない。しかしながら、ＡＩエンジン４１２を用いることで、たとえば仮想カメラの仮想視野からの、仮想環境の視界は、説明の窓を含むように変更され得る。加えて、ＡＩエージェントは、それについて話している窓を指差し又はそうでなければ指し示し得、システム４００は、ＣＡＤアプリケーションでの通信を通して、更新されたＣＡＤファイルに基づいて仮想環境を更新するために、システム４００へフィード・バックされ得る、窓への更新を成し得る。

いくつかの実施例では、入力してくるユーザからの文字的、視覚的、ユーザ入力、及び／又は音声データの分析に加えて、ユーザのユーザ・プロファイル又はユーザ情報が、ＡＩエージェントによる文字的、聴覚的、及び／又は視覚的応答を決定するために、アクセスされ得る。たとえば、ユーザが天気について尋ねている場合、ユーザの位置情報が、特定の位置に対する適切な応答を決定するために、活用され得る。そのような実例では、仮想環境が、位置を反映するために、たとえば、位置の一部、又はパリのエッフェル塔のような位置を識別する特徴を含めるために、さらに更新され得る。同様に、ユーザの嗜好又は他の情報が、適切にユーザに応答するために、又はユーザと対話するために、活用され得る。いくつかの実施例では、この情報は、アプリケーションのインスタンス中に、たとえば、テレビ会議中に、ユーザの発言、動作などに基づいて、収集され得る。たとえば、ユーザが、ニューヨーク市の彼らの家にいることを言及している場合、この情報は、ユーザが後ほど「自宅の交通はどんな状況？」と尋ねるとき、応答が既に認知されている位置情報に基づくことができるように、記憶され得る。

ＡＩエンジン４１２が個別のユーザが喜んだり悲しんだりしている時に、どのような表情かを学習し、且つ／或いは個別のユーザの発話パターン、発話の様子、及び／又はＡＩエンジン４１２を個別のユーザに適用させるために用いられ得る他のユーザ固有の情報を学習し得るように、個人化されたモデルが、徐々に異なるユーザのために生成され得る。この情報がＡＩエージェント・デバイス４０２のユーザ・プロファイルに記憶され得る。同様に、任意の数のユーザを学ぶことによって、ＡＩエンジン４１２及びレンダラ４１４並びに／又はそれに関連付けられた内在する機械学習若しくは深層学習モデルは、ＡＩエージェントがより人間のように、通信し且つ見えるように、効果的に感情を示し且つ／又は仮想環境のＡＩエージェントの３Ｄグラフィカル描画をアニメーション化する仕方を学習し得る。同じように、ＡＩエージェントが（擬人的な）動物、ロボット、物体などに似せる場合、ＡＩエンジン４１２は、仮想環境内での動物、ロボット、オブジェクト、車両などをより正確にシミュレートするために、ＡＩエージェントの現実世界バージョンに対応するデータから学習し得る。

ＡＩエンジン４１２は、任意の数のＡＩエージェントを支援し得る。たとえば、異なるＡＩエージェントが、異なる領域又は技能のためにプログラムされ得る。したがって、ユーザは、特有のＡＩエージェントを要求し得、又は個別のＡＩエージェントが、入力してくるデータに基づいて、ＡＩエンジン４１２によって選択され得る（たとえば、要求が天気についてである場合、天気ＡＩエージェントがインスタンス生成され、要求が金融についてである場合、金融ＡＩエージェントがインスタンス生成され、要求が購入についてである場合、買い物支援ＡＩが生成され得る、など）。個別の領域に対応するＡＩエージェントの結果として、要求、司令、質問、照会などが、その領域に適正な応答又は会話的な論理及びツールに導かれる傾向がより高くなるにつれ、ユーザとＡＩエージェントとの間の通信は、より好結果となり得る。

レンダラ４１４は、ユーザ・デバイス４０４への送信及び／又はユーザ・デバイス４０４による提示のために、表示データ又は画像データを、グラフィカル・データから及び／又は仮想環境又は世界の１つ又は複数のモデル（たとえば、仮想ＡＩエージェントを含む、仮想環境又は世界を表すデータ）を使用して、レンダリングし得る。いくつかの実施例では、画像データ又は表示データは、仮想カメラの仮想視野からキャプチャされたものとして仮想環境の一部分に対応したグラフィカル・データの部分集合を表示するために、レンダリングされ得る。加えて、音声データが、ユーザ・デバイス４０４に送信され且つ／又はユーザ・デバイス４０４によって出力され得る。さらに、ＡＩエージェントからの文字データは、ユーザ・デバイス４０４に送信され且つ／又はユーザ・デバイス４０４によって表示され得る。したがって、実施例では、たとえば文字的、視覚的、及び／又は聴覚的データの通信が、ホスト・アプリケーション４２６を介して、クライアント・アプリケーション４１６Ａとクライアント・アプリケーション４１６Ｂとの間でやり取りされ得る。表示データ、画像データ、文字データ、及び／又は音声データは、アプリケーション、たとえばクライアント・アプリケーション４１６Ａ、４１６Ｂ及びホスト・アプリケーション４２６、のインスタンス中に、データのストリームとして送信され得る。

いくつかの実施例では、レンダラ４１４は、ＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎ製のＯｍｎｉｖｅｒｓｅＫｉｔに対応し、又は類似していることがあり、並びに／或いは各々がその全体が参照により本明細書により組み込まれている、２０１８年８月１０日に出願した米国仮特許出願第６２／７１７，７３０号、２０１９年８月１２日に出願した米国特許出願第１６，５３８，５９４号、２０２０年３月２２日に出願した米国特許出願第１６，５３８，５９４号、及び／若しくは２０１９年７月２９日に出願した米国仮特許出願第６２／８７９，９０１号に示されているような、構成要素、特徴、且つ／又は機能のうちのいくつか又は全てを含み得る。たとえば、レンダラ４１４は、ＮＶＩＤＩＡＲＴＸＲＥＮＤＥＲＥＲに相当し得る。

レンダラ４１４は、グラフィカル・データからの表示データ又は画像データをレンダリングするために、任意の数のＧＰＵ及び／又はそのノードを活用し得る。たとえば、レイ・トレーシング、たとえばリアル・タイムのレイ・トレーシング及び／又はパス・トレーシングが、よりリアルな写真のような描画を生成するために、１つ又は複数のＧＰＵを使用して、実行され得る。いくつかの非限定的な実施例では、レンダラ４１４は、ＰＩＸＡＲ社の汎用情景記述（ＵＳＤ：ＵｎｉｖｅｒｓａｌＳｃｅｎｅＤｅｓｃｒｉｐｔｉｏｎ）フォーマット及び／又は別の、コンテンツ作成及び多様な異なるツール間のやり取りのための、３Ｄ情景記述及びファイルのフォーマットであり得る。レンダリングされた後に、グラフィカル及び／又は音声の出力は、圧縮された又はエンコードされたデータが提示前に復元される（デコードされる）、ＡＩエージェントと対話するユーザ又は参加者に対応するコンピュータ・デバイスに、送信される前に、圧縮され／エンコードされ得る。

ユーザ・デバイス４０４に関して、入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）構成要素４２０は、入力を提供すること、入力を受信すること、及び／又は出力を生成することを可能にする、任意のタイプのデバイスを含み得る。たとえば、Ｉ／Ｏデバイス４２０の入力デバイスは、それだけには限らないが、キーボード、マウス、タッチ・スクリーン・ディスプレイ、コントローラ、リモコン、ヘッドセット、スタイラス、マイクロフォン、カメラ、及び／又は他のタイプの入力デバイスを含み得る。Ｉ／Ｏ構成要素４２０の出力デバイスは、それだけには限らないが、スピーカ、ディスプレイ、光源、触覚フィードバック・デバイス（たとえば、振動モータ）、及び／又は他のタイプの出力デバイスを含み得る。いくつかの実施例では、本明細書で説明されるように、ＡＩエージェント・デバイス４０２は、システム４００と通信するために、ユーザ・デバイス４０４のＩ／Ｏ構成要素４２０に類似した、仮想又はシミュレートされたＩ／Ｏ構成要素を活用し得る。非限定的な実例として、ＡＩエージェントからの通信は、仮想環境内の仮想カメラの仮想視野から、及び／又は仮想環境内の仮想マイクロフォンの仮想音声センサから（若しくはそれに接続された仮想音声ケーブル）取得され得る。したがって、たとえば、レンダラ４１４及び／又はＡＩエンジン４１２を使用するＡＩエージェント・デバイス４０２は、仮想環境内からの且つ／又は１つ又は複数の仮想Ｉ／Ｏ構成要素を用いるＡＩエージェントに対応する、データを取得し得る。

次に図５を参照すると、会話型ＡＩプラットフォーム５００は、ＡＩエージェントがＡＩエージェント・デバイス５０２によって１人又は複数のユーザからのユーザ・デバイス５０４を介してクエリに応答することを可能にするように使用され得る。そのような実例では、クライアント・アプリケーション５１６Ａ及び５１６Ｂは、会話型ＡＩプラットフォームのエンド・ユーザのアプリケーション・バージョンに対応し得、ホスト・デバイス５０６は、ＡＩエージェントをホストするホスト・アプリケーション５２６を含み得る。

ユーザ・デバイス５０４毎に、ユーザ５３０は、入力を１つ又は複数のＩ／Ｏ構成要素５２０に提供し得、及び／又はＩ／Ｏ構成要素５２０は、データを生成し得る。たとえば、カメラ、たとえばウェブ・カメラは、その視野の映像ストリーム（ユーザを含み得る）を取得し得、マイクロフォンは、音声ストリームを取得し得、及び／又はキーボード、マウス、若しくは他の入力デバイスは、文字ストリーム又は他の入力ストリームを取得し得る。いくつかの実施例では、アプリケーションのインスタンス、ＡＩエージェント、及び／又はその仮想環境のうちのいくつか又は全てが、仮想環境を表すグラフィカル・データの描画に対応する受信された表示データ又は画像データに基づいて、ディスプレイ５２２上に提示され得る。

これらの音声、映像、及び／又は文字データのストリームは、クライアント・アプリケーション５１６Ｂによって受信され得、たとえばエンコーディング後に、ホスト・デバイス５０６に送信され得、ホスト・デバイス５０６は、データを分析し、処理し得、ＡＩエージェント・デバイス５０２のクライアント・アプリケーション５１６Ａに、送信し、且つ／又は転送し得る。ＡＩエンジン５１２は、クライアント・アプリケーション５１６Ａからの映像、音声、及び／又は文字ストリームにアクセスし且つ／或いは受信し得、ＡＩエージェントのための応答又は通信を決定するために、データを処理し得、且つ／又はレンダラ５１４は、対応する仮想環境への任意の更新を生成し得る。いくつかの実施例では、覚え書き、質問及び回答の会話ボックス情報、及び／又は会話型ＡＩプラットフォームに関連付けられた他の情報が、ＡＩエンジン５１２によって受信され、処理され得る。したがって、文字的、視覚的、及び／又は聴覚的な、ＡＩエージェントの応答又は通信が決定された後、ＡＩエージェント及び仮想環境は、それに従って更新され得、グラフィカル・データから、たとえば仮想視野或いはカメラ、マイクロフォンなどのような１つ又は複数の仮想センサから生成された、表示データ及び／又は画像データは、レンダラ５１４を用いてレンダリングされ得る。ストリーム・マネージャ５２８は、レンダリングされたデータを受信し、映像ストリーム、音声ストリーム、文字ストリーム、及び／又はそのエンコードされた表現を発生させ、この情報をクライアント・アプリケーション５１６Ａに提供し得る。いくつかの実施例では、ストリーム・マネージャ５２８は、公開同報通信ソフトウェア（ＯＢＳ：ｏｐｅｎｂｒｏａｄｃａｓｔｉｎｇｓｏｆｔｗａｒｅ）によって提供される仮想カメラ機能のような、任意の好適な仮想カメラ・ソフトウェアを活用し得る。結果として、ＡＩエージェントが現実のエンティティ、たとえばユーザ５３０でないにもかかわらず、クライアント・アプリケーション５１６Ａは、まるで他の任意のユーザ・デバイス５０４によって生成されたような、ＡＩエージェントを表現する映像、音声、及び／又は文字ストリームを受信し得る。したがって、クライアント・アプリケーション５１６Ａ、クライアント・アプリケーション５１６Ｂ、及び／又はホスト・アプリケーション５２６は、ＡＩエージェントが存在するという認識を必要としなくてもよく、たとえばＡＩエージェント・デバイス５０２は、ホスト・デバイス５０６によって、別のユーザ・デバイス５０４として扱われ得る。ホスト・アプリケーション５２６の１つ又は複数の既存のＡＰＩを用いたクライアント・アプリケーション５１６の通信が、ＡＩエージェントを実施するために十分であり得るので、ＡＩエージェント・デバイス５０２及びその特徴及び機能は、ＡＩエージェントに対応するＡＰＩへの要求なしに、任意の会話型ＡＩプラットフォームに適用され得る。

ホスト・デバイス５０６は次に、ＡＩエージェントに対応する映像、音声、及び／又は文字ストリームを分析し、処理し、ユーザ・デバイス５０４に、送信し、及び／又は転送し得、クライアント・アプリケーション５１６Ｂは、ディスプレイを介したデータの表示及び／又はＩ／Ｏ構成要素５２０介したデータ出力（たとえば、音声データ）をもたらし得る。

この処理は、ＡＩエージェントが表示される又は提示されることになる場合の間、たとえば全期間、アクティブ化基準が満足されたわずか後及び所与の対話が完了するまで、アクティブ化基準満足された後の残りの時間、ＡＩエージェントが会議から離れること又は除外されることを求められるまでなど、継続し得る。

実例のコンピュータ・デバイス
図６は、本開示のいくつかの実施例を実施するように用いるのに適したコンピュータ・デバイス６００の実例のブロック図である。コンピュータ・デバイス６００は、以下のデバイス、メモリ６０４、１つ又は複数の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）６０６、１つ又は複数のグラフィック処理ユニット（ＧＰＵ）６０８、通信インターフェース６１０、入出力（Ｉ／Ｏ）ポート６１２、入出力構成要素６１４、電源６１６、１つ又は複数の提示構成要素６１８（たとえば、ディスプレイ）、及び１つ又は複数の論理演算装置６２０、を直接的に又は間接的に結合する、相互接続システム６０２を含み得る。少なくとも１つの実施例では、コンピュータ・デバイス６００は、１つ又は複数の仮想機械（ＶＭ：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）を備え得、且つ／又はその構成要素のうちの任意のものは、仮想構成要素（たとえば、仮想ハードウェア構成要素）を備え得る。非限定的な実例として、ＧＰＵ６０８のうちの１つ又は複数は、１つ又は複数のｖＧＰＵを備え得、ＣＰＵ６０６のうちの１つ又は複数は、１つ又は複数のｖＣＰＵを備え得、且つ／又は論理演算装置６２０のうちの１つ又は複数は、１つ又は複数の仮想論理演算装置を備え得る。したがって、コンピュータ・デバイス６００は、個別構成要素（たとえば、コンピュータ・デバイス６００専用の完全なＧＰＵ）、仮想構成要素（たとえば、コンピュータ・デバイス６００専用のＧＰＵの一部分）、又はその組合せを含み得る。

図６の多様なブロックが、相互接続システム６０２を介して線で接続されているように示されているが、これは限定されることを意図されておらず、単に明確化のためである。たとえば、いくつかの実施例では、表示デバイスなどの提示構成要素６１８は、Ｉ／Ｏ構成要素６１４と見なされ得る（たとえば、ディスプレイがタッチ画面である場合）。別の実例として、ＣＰＵ６０６及び／又はＧＰＵ６０８は、メモリを含み得る（たとえば、メモリ６０４は、ＧＰＵ６０８、ＣＰＵ６０６、及び／又は他の構成要素のメモリに付加された記憶デバイスを表し得る）。即ち、図６のコンピュータ・デバイスは、単なる例示的なものである。「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレット」、「クライアント・デバイス」、「モバイル・デバイス」、「ハンド・ヘルド・デバイス」、「ゲーム・コンソール」、「電子制御装置（ＥＣＵ：ｅｌｅｃｔｒｏｎｉｃｃｏｎｔｒｏｌｕｎｉｔ）」、「仮想現実システム」、及び／又は他のデバイス若しくはシステムのタイプのようなカテゴリ間での区別はなされず、全てが、図６のコンピュータ・デバイスの範囲内にあると意図されている。

相互接続システム６０２は、アドレス・バス、データ・バス、コントロール・バス、又はその組合せのような、１つ又は複数のリンク又はバスを表し得る。相互接続システム６０２は、業界標準アーキテクチャ（ＩＳＡ：ｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄａｒｃｈｉｔｅｃｔｕｒｅ）バス、拡張業界標準アーキテクチャ（ＥＩＳＡ：ｅｘｔｅｎｄｅｄｉｎｄｕｓｔｒｙｓｔａｎｄａｒｄａｒｃｈｉｔｅｃｔｕｒｅ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ：ｖｉｄｅｏｅｌｅｃｔｒｏｎｉｃｓｓｔａｎｄａｒｄｓａｓｓｏｃｉａｔｉｏｎ）バス、周辺構成要素相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）バス、周辺構成要素相互接続エクスプレス（ＰＣＩｅ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）バス、及び／又は別のタイプのバス若しくはリンクのような、１つ又は複数のバス又はリンクのタイプを含み得る。いくつかの実施例では、構成要素間の直接接続が存在する。一実例として、ＣＰＵ６０６は、メモリ６０４に直接接続され得る。さらに、ＣＰＵ６０６は、ＧＰＵ６０８に直接接続され得る。構成要素間に直接又は二地点間の接続が存在する場合、相互接続システム６０２は、接続を実施するために、ＰＣＩｅリンクを含み得る。これらの実例では、ＰＣＩバスは、コンピュータ・デバイス６００に含まれることを必要としない。

メモリ６０４は、種々のコンピュータ可読媒体のうちの任意のものを含み得る。コンピュータ可読媒体は、コンピュータ・デバイス６００によってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータ可読媒体は、揮発性及び不揮発性媒体の両方であり得、取り外し可能な及び取り外し不可能な媒体の両方であり得る。実例を挙げると、限定されないが、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含み得る。

コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は他のデータのタイプのような任意の情報記憶方法又は技術で実施される、揮発性及び不揮発性媒体の両方及び／又は取り外し可能な及び取り外し不可能な媒体の両方を、含み得る。たとえば、メモリ６０４は、コンピュータ可読命令（たとえば、オペレーティング・システムのようなプログラム及び／又はプログラム構成要素に相当する）を記憶し得る。コンピュータ記憶媒体は、限定はされないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ又は他のメモリ技術、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）又は他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置、或いは所望される情報を記憶するために使用され得、コンピュータ・デバイス６００によってアクセスされ得る、他の任意の媒体を含み得る。本明細書で用いられるように、コンピュータ記憶媒体は、信号それ自体は含まない。

コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラム・モジュール、及び／又は搬送波又は他の伝送機構のような変調データ信号の他のデータのタイプを具現化し得、任意の情報送達媒体を含む。用語「変調データ信号」は、信号内の情報をエンコードするように設定又は変更された、その特性のうちの１つ又は複数を有する、信号を指し得る。実例を挙げると、限定されないが、コンピュータ記憶媒体は、有線ネットワーク又は直接有線接続のような有線媒体、並びに音響、ＲＦ、赤外線及び他の無線媒体のような無線媒体を含み得る。上記のうちの任意のものの組合せが、コンピュータ可読媒体の範囲内にさらに含まれるであろう。

ＣＰＵ６０６は、本明細書で説明される１つ又は複数の方法及び／若しくは処理を遂行するために、コンピュータ・デバイス６００の１つ又は複数の構成要素を制御するために、少なくともコンピュータ可読命令のいくつかを実行するように構成され得る。ＣＰＵ６０６は、多数のソフトウェアのスレッドを同時に取り扱うことが可能な１つ又は複数のコア（たとえば、１つの、２つの、４つの、８つの、２８の、７２の、など）を各々含み得る。ＣＰＵ６０６は、任意のタイプのプロセッサを含み得、実装されるコンピュータ・デバイス６００のタイプにより（モバイル・デバイスにはより少ないコアを有するプロセッサを、サーバにはより多くのコアを有するプロセッサを）、異なるタイプのプロセッサを含み得る。たとえば、コンピュータ・デバイス６００のタイプにより、プロセッサは、縮小命令セット・コンピューティング（ＲＩＳＣ：ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されるアーム（ＡＲＭ：ＡｄｖａｎｃｅｄＲＩＳＣＭａｃｈｉｎｅｓ）プロセッサ又は複合命令セット・コンピューティング（ＣＩＳＣ：ＣｏｍｐｌｅｘＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｉｎｇ）を使用して実装されるｘ８６プロセッサであり得る。コンピュータ・デバイス６００は、１つ又は複数のマイクロプロセッサ若しくは数値演算コプロセッサのような補助コプロセッサに加えて、１つ又は複数のＣＰＵ６０６を含み得る。

ＣＰＵ６０６に加えて又はその別法として、ＧＰＵ６０８は、本明細書で説明される１つ又は複数の方法及び／若しくは処理を遂行するために、コンピュータ・デバイス６００の１つ又は複数の構成要素を制御するために、コンピュータ可読命令のうちの少なくともいくつかを実行するように構成され得る。ＧＰＵ６０８のうちの１つ又は複数は、統合されたＧＰＵ（たとえば、ＣＰＵ６０６のうちの１つ又は複数を有する）であり得、且つ／又はＧＰＵ６０８のうちの１つ又は複数は、個別のＧＰＵであり得る。実施例では、ＧＰＵ６０８のうちの１つ又は複数は、コプロセッサのＣＰＵ６０６のうちの１つ又は複数であり得る。ＧＰＵ６０８は、グラフィックス（たとえば、３Ｄグラフィックス）をレンダリングするために又は汎用コンピュータ計算を遂行するために、コンピュータ・デバイス６００によって使用され得る。たとえば、ＧＰＵ６０８は、ＧＰＵ上での汎用コンピュータ計算（ＧＰＧＰＵ：Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧＰＵ）のために使用され得る。ＧＰＵ６０８は、数百又は数千のソフトウェア・スレッドを同時に取り扱うことが可能な、数百又は数千のコアを含み得る。ＧＰＵ６０８は、レンダリング司令（たとえば、ＣＰＵ６０６からホスト・インターフェースを介して受信されるレンダリング司令）に応答して、出力画像のための画素データを生成し得る。ＧＰＵ６０８は、画素データ又はＧＰＧＰＵデータのような他の任意の好適なデータを記憶するための、ディスプレイ・メモリのようなグラフィックス・メモリを含み得る。ディスプレイ・メモリは、メモリ６０４の構成要素として含まれ得る。ＧＰＵ６０８は、並列に（たとえば、リンクを介して）運転する２つ以上のＧＰＵを含み得る。リンクは、ＧＰＵを直接接続し得（たとえば、ＮＶＬＩＮＫを使用して）又はスイッチを通してＧＰＵを接続し得る（たとえば、ＮＶＳｗｉｔｃｈを使用して）。組み合わされた場合、各ＧＰＵ６０８は、異なる出力の一部分又は異なる出力のための画素データ又はＧＰＧＰＵデータを生成し得る（たとえば、第１の画像のための第１のＧＰＵ及び第２の画像のための第２のＧＰＵ）。各ＧＰＵは、それ自体のメモリを含み得、他のＧＰＵとメモリを共有し得る。

ＣＰＵ６０６及び／又はＧＰＵ６０８に加えて或いは別法として、論理演算装置６２０は、本明細書で説明される方法及び／若しくは処理のうちの１つ又は複数を遂行するために、コンピュータ・デバイス６００の１つ又は複数の構成要素を制御するために、コンピュータ可読命令のうちの少なくともいくつかを実行するように構成され得る。実施例では、ＣＰＵ６０６、ＧＰＵ６０８、及び／又は論理演算装置６２０は、方法、処理、及び／又はその一部分の任意の組合せを、個別に又は一緒に遂行し得る。論理演算装置６２０のうちの１つ又は複数は、ＣＰＵ６０６及び／又はＧＰＵ６０８のうちの１つ又は複数の構成要素及び／又は統合されたものであり得、且つ／或いは論理演算装置６２０のうちの１つ又は複数は、個別の構成要素であり得、又はそうでなければＣＰＵ６０６及び／若しくはＧＰＵ６０８の外部にあり得る。実施例では、論理演算装置６２０のうちの１つ又は複数は、ＣＰＵ６０６のうちの１つ又は複数及び／或いはＧＰＵ６０８のうちの１つ又は複数のコプロセッサであり得る。

論理演算装置６２０の実例は、１つ又は複数の処理コア及び／又はデータ処理ユニット（ＤＰＵ：ＤａｔａＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、テンソル・コア（ＴＣ：ＴｅｎｓｏｒＣｏｒｅ）、テンソル処理ユニット（ＴＰＵ：ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、画素視覚的コア（ＰＶＣ：ＰｉｘｅｌＶｉｓｕａｌＣｏｒｅ）、視覚処理ユニット（ＶＰＵ：ＶｉｓｉｏｎＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィックス処理クラスタ（ＧＰＣ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、質感処理クラスタ（ＴＰＣ：ＴｅｘｔｕｒｅＰｒｏｃｅｓｓｉｎｇＣｌｕｓｔｅｒ）、ストリーミング・多重プロセッサ（ＳＭ：ＳｔｒｅａｍｉｎｇＭｕｌｔｉｐｒｏｃｅｓｓｏｒ）、木の走査ユニット（ＴＴＵ：ＴｒｅｅＴｒａｖｅｒｓａｌＵｎｉｔ）、人工知能アクセラレータ（ＡＩＡ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡｃｃｅｌｅｒａｔｏｒｓ）、深層学習アクセラレータ（ＤＬＡ：ＤｅｅｐＬｅａｒｎｉｎｇＡｃｃｅｌｅｒａｔｏｅ）、算術論理演算装置（ＡＬＵ：Ａｒｉｔｈｍｅｔｉｃ－ＬｏｇｉｃＵｎｉｔ）、特定用途向け集積回路（ＡＳＩＣ：Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、浮動小数点ユニット（ＦＰＵ：ＦｌｏａｔｉｎｇＰｏｉｎｔＵｎｉｔ）、入出力（Ｉ／Ｏ）構成要素、周辺構成要素相互接続（ＰＣＩ：ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ）若しくは周辺構成要素相互接続エクスプレス（ＰＣＩｅ）構成要素、及び／又は同様のもののような、その構成要素を含み得る。

通信インターフェース６１０は、コンピュータ・デバイス６００が有線及び／又は無線通信が含まれる電子通信ネットワークを介して、他のコンピュータ・デバイスと通信することを可能にする、１つ又は複数の受信機、送信機、及び／又は送受信機を含み得る。通信インターフェース６１０は、無線ネットワーク（たとえば、Ｗｉ－Ｆｉ、Ｚ－Ｗａｖｅ、ブルートゥース、ブルートゥースＬＥ、ＺｉｇＢｅｅなど）、有線ネットワーク（たとえば、イーサネット（登録商標）又はインフィニバンドを通じた通信）、低出力広域ネットワーク（たとえば、ＬｏＲａＷＡＮ、ＳｉｇＦｏｘなど）及び／又はインターネットのような、いくつかの異なるネットワークのうちの任意のものを通じて通信を可能にするために、構成要素及び機能を含み得る。１つ又は複数の実施例では、論理演算装置６２０及び／又は通信インターフェース６１０は、ネットワークを通じて受信される且つ／又は相互接続システム６０２を通して１つ又は複数のＧＰＵ６０８に（たとえば、そのメモリに）、直接データを送信するために、１つ又は複数のデータ処理ユニット（ＤＰＵ）を含み得る。

Ｉ／Ｏポート６１２は、コンピュータ・デバイス６００がＩ／Ｏ構成要素６１４、提示構成要素６１８、及び／又はそのうちのいくつかがコンピュータ・デバイス６００に内蔵され得る（たとえば、内部統合される）、他の構成要素を含む他のデバイスと論理的に結合されることを可能にし得る。例示的なＩ／Ｏ構成要素６１４は、マイクロフォン、マウス、キーボード、ジョイスティック、ゲームパッド、ゲーム・コントローラ、パラボラ・アンテナ、スキャナ、プリンタ、無線デバイスなどを含む。Ｉ／Ｏ構成要素６１４は、エア・ジェスチャ、音声、又はユーザによって生成される他の生理学的入力を処理する、自然なユーザ・インターフェース（ＮＵＩ：ｎａｔｕｒａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）を提供し得る。いくつかのインスタンスでは、入力は、さらなる処理のために適切なネットワーク構成要素に送信され得る。ＮＵＩは、音声認識、スタイラス認識、顔認識、バイオメトリック認識、画面上及び画面近傍両方でのジェスチャ認識、エア・ジェスチャ、頭及び目の追跡、並びにコンピュータ・デバイス６００のディスプレイに関連付けられたタッチ認識（より詳細に後述するような）のうちの任意の組合せを実施し得る。コンピュータ・デバイス６００は、ジェスチャ検出及び認識のための、ステレオ・カメラ・システム、赤外線カメラ・システム、ＲＧＢカメラ・システム、タッチスクリーン技術、及びこれらの組合せのような、深さカメラを含み得る。さらに、コンピュータ・デバイス６００は、動作検出を可能にする、加速度計又はジャイロスコープ（たとえば、慣性測定ユニット（ＩＭＵ）の構成要素として）を含み得る。いくつかの実例では、加速度計又はジャイロスコープの出力は、没入できる拡張現実又は仮想現実をレンダリングするために、コンピュータ・デバイス６００によって用いられ得る。

電力供給源６１６は、配線によって接続される電力供給源、電池電力供給源、又はその組合せを含み得る。電力供給源６１６は、コンピュータ・デバイス６００の構成要素の動作を可能にするために、コンピュータ・デバイス６００に電力を供給し得る。

提示構成要素６１８は、ディスプレイ（たとえば、モニタ、タッチ画面、テレビ画面、ヘッド・アップ・ディスプレイ（ＨＵＤ）、他のディスプレイのタイプ、又はその組合せ）、スピーカ、及び／又は他の提示構成要素を含み得る。提示構成要素６１８は、他の構成要素（たとえば、ＧＰＵ６０８、ＣＰＵ６０６、ＤＰＵなど）からデータを受信し、データを出力し得る（たとえば、画像、映像、音声として）。

実例のデータ・センタ
図７は、本開示の少なくとも１つの実施例で使用され得る、実例のデータ・センタ７００を示す。データ・センタ７００は、データ・センタ・インフラストラクチュア層７１０、フレームワーク層７２０、ソフトウェア層７３０、及び／又はアプリケーション層７４０を含み得る。

図７に示すように、データ・センタ・インフラストラクチュア層７１０は、資源オーケストレータ７１２、グループ化されたコンピュータ資源７１４、及びノード・コンピュータ資源（「ノードＣ．Ｒ．」）７１６（１）～７１６（Ｎ）を含み得、ここで、「Ｎ」は、任意の完全な正の整数を表す。少なくとも１つの実施例でノードＣ．Ｒ．７１６（１）～７１６（Ｎ）は、それだけに限定されないが、任意の数の中央処理装置（ＣＰＵ）又は他のプロセッサ（ＤＰＵアクセラレータ、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、グラフィックス・プロセッサ又はグラフィック処理ユニット（ＧＰＵ）など）、メモリ・デバイス（たとえば、動的読み出し専用メモリ）、記憶デバイス（たとえば、ソリッド・ステート・ドライブ又はディスク・ドライブ）、ネットワーク入出力（ＮＷＩ／Ｏ：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（ＶＭ）、電力モジュール、及び／或いは冷却モジュール、などを含み得る。いくつかの実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうちの１つ又は複数のノードＣ．Ｒ．は、上記のコンピュータ資源のうちの１つ又は複数を有するサーバに相当する。加えて、いくつかの実施例では、ノードＣ．Ｒ．７１６（１）～７１６１（Ｎ）は、ｖＧＰＵ、ｖＣＰＵ、及び／又は同様のもののような、１つ又は複数の仮想構成要素を含み得、且つ／或いはノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうちの１つ又は複数は、仮想機械（ＶＭ）に相当し得る。

少なくとも１つの実施例では、グループ化されたコンピュータ資源７１４は、様々な地理的位置（図示せず）にあるデータ・センタ内に収容された、１つ又は複数のラック（やはり図示せず）内に、又は多数のラック内に、収容されたノードＣ．Ｒ．７１６の個別のグループを含み得る。グループ化されたコンピュータ資源７１４内のノードＣ．Ｒ．７１６の個別のグループは、１つ又は複数の作業負荷を支援するように構成された又は割り当てられ得た、グループ化された計算、ネットワーク、メモリ又は記憶資源を含み得る。少なくとも１つの実施例では、ＣＰＵ、ＧＰＵ、ＤＰＵ、及び／又は他のプロセッサを含む、いくつかのノードＣ．Ｒ．７１６は、１つ又は複数の作業負荷を支援するためにコンピュータ資源を提供するために、１つ又は複数のラック内でグループ化され得る。１つ又は複数のラックは、任意の数の出力モジュール、冷却モジュール、及び／又はネットワーク・スイッチを任意の組合せで、やはり含み得る。

資源オーケストレータ７１２は、１つ又は複数のノードＣ．Ｒ．７１６（１）～７１６（Ｎ）及び／又はグループ化されたコンピュータ資源７１４を構成し得、或いはそうでなければ制御し得る。少なくとも１つの実施例では、資源オーケストレータ７１２は、データ・センタ７００のために、ソフトウェア設計インフラストラクチュア（ＳＤＩ：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）マネージメント・エンティティを含み得る。資源オーケストレータ７１２は、ハードウェア、ソフトウェア、又はいくつかのその組合せを含み得る。

少なくとも１つの実施例では、図７に示すように、フレームワーク層７２０は、ジョブ・スケジューラ７３２、構成マネージャ７３４、資源マネージャ７３６、及び／又は分散ファイル・システム７３８を含み得る。フレームワーク層７２０は、ソフトウェア層７３０のソフトウェア７３２を、及び／又はアプリケーション層７４０の１つ又は複数のアプリケーション７４２を支援するために、フレームワークを含み得る。ソフトウェア７３２又はアプリケーション７４２は、アマゾン・ウェブ・サービス、グーグル・クラウド及びマイクロソフト・アジュールによって提供されているような、ウェブベースのサービス・ソフトウェア又はアプリケーションをそれぞれ含み得る。フレームワーク層７２０は、限定はされないが、大規模データ処理（たとえば、「ビッグ・データ」）のための分散ファイル・システム７３８を使用し得る、ＡｐａｃｈｅＳｐａｒｋ（商標）（以下「Ｓｐａｒｋ」と記す）のような、無料でオープン・ソース・タイプのソフトウェア・ウェブ・アプリケーション・フレームワークであり得る。少なくとも１つの実施例では、ジョブ・スケジューラ７３２は、データ・センタ７００の様々な層によって支援される作業負荷の計画を容易にするために、Ｓｐａｒｋドライバを含み得る。構成マネージャ７３４は、大規模データ処理を支援するためのＳｐａｒｋ及び分散ファイル・システム７３８を含む、ソフトウェア層７３０及びフレームワーク層７２０のような、異なる層を構成することが可能であり得る。資源マネージャ７３６は、分散ファイル・システム７３８及びジョブ・スケジューラ７３２の支援のために、マッピングされ又は割り当てられた、クラスタリングされ又はグループ化されたコンピュータ資源を、管理する能力を有し得る。少なくとも１つの実施例では、クラスタリングされ又はグループ化されたコンピュータ資源は、データ・センタ・インフラストラクチュア層７１０でグループ化されたコンピュータ資源７１４を含み得る。資源マネージャ７３６は、これらのマッピングされた又は割り当てられたコンピュータ資源を管理するために、資源オーケストレータ７１２と協調し得る。

少なくとも１つの実施例では、ソフトウェア層７３０に含まれるソフトウェア７３２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化されたコンピュータ資源７１４、及び／又はフレームワーク層７２０の分散ファイル・システム７３８のうちの少なくとも一部によって使用されるソフトウェアを含み得る。１つ又は複数のタイプのソフトウェアは、それだけに限定されないが、インターネット・ウェブ・ページ検索ソフトウェア、ｅメールのウィルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング映像コンテンツ・ソフトウェアを含み得る。

少なくとも１つの実施例では、アプリケーション層７４０に含まれるアプリケーション７４２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化されたコンピュータ資源７１４、及び／又はフレームワーク層７２０の分散ファイル・システム７３８のうちの少なくとも一部によって使用される１つ又は複数のタイプのアプリケーションを含み得る。１つ又は複数のタイプのアプリケーションは、それだけに限定されないが、任意の数のゲノミクス・アプリケーション、認識コンピュータ処理、及びトレーニング又は推定ソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）、並びに／或いは１つ又は複数の実施例と併せて用いられる他の機械学習アプリケーションを含む、機械学習アプリケーションを含み得る。

少なくとも１つの実施例では、構成マネージャ７３４、資源マネージャ７３６、及び資源オーケストレータ７１２のうちの任意のものは、任意の数及びタイプの自己修正作業を、任意の技術的に実現可能な様式で取得された任意の量及びタイプのデータに基づいて、実施し得る。自己修正作業は、データ・センタ７００のデータ・センタ・オペレータが、悪い構成決断をできる限りなさないように援助し得、データ・センタの十分に活用しきらない且つ／又は不十分な遂行する部分をできる限り回避する。

データ・センタ７００は、１つ又は複数の機械学習モデルをトレーニングするために、或いは本明細書で説明した１つ又は複数の実施例の通りに、１つ又は複数の機械学習モデルを用いて、情報を予測又は推測するために、ツール、サービス、ソフトウェア又は他の資源を含み得る。たとえば、機械学習モデルは、データ・センタ７００に関して上述した、ソフトウェア及び／又はコンピュータ資源を使用するニューラル・ネットワーク・アーキテクチャに応じて重みパラメータを計算することによって、トレーニングされ得る。少なくとも１つの実施例では、１つ又は複数のニューラル・ネットワークに対応する、トレーニングされ又は配置された機械学習モデルは、それだけには限らないが、本明細書で説明したもののような、１つ又は複数のトレーニング技術を通して計算された、重みパラメータを用いることによって、データ・センタ７００に関して上述した資源を使用して、情報を推測し又は予測するために、使用され得る。

少なくとも１つの実施例では、データ・センタ７００は、上述の資源を使用してトレーニング及び／又は推定することを実施するために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、及び／又は他のハードウェア（又はそれに相当する仮想コンピュータ資源）を使用し得る。さらに、上述した１つ又は複数のソフトウェア及び／又はハードウェア資源は、ユーザが、画像認識、音声認識、又は他の人工知能サービスのような、情報の推定をトレーニング又は実施できるようにする、サービスとして構成され得る。

実施例のネットワーク環境
本開示の実施例を実施中の使用に適したネットワーク環境は、１つ又は複数のクライアント・デバイス、サーバ、ネットワーク接続ストレージ（ＮＡＳ）、他のバックエンド・デバイス、及び／又は他のデバイスのタイプを含み得る。クライアント・デバイス、サーバ、及び／又は他のデバイスのタイプ（たとえば、各デバイス）は、図６のコンピュータ・デバイス６００の１つ又は複数のインスタンスで実施され得、たとえば、各デバイスは、コンピュータ・デバイス６００同等の構成要素、特徴、及び／又は機能を含み得る。加えて、バックエンド・デバイス（たとえば、サーバ、ＮＡＳなど）が実装される場合、バックエンド・デバイスは、データ・センタ７００の構成要素として含まれ得、その実例は、図７に関して本明細書で詳述されている。

ネットワーク環境の構成要素は、有線、無線、又は両方であり得るネットワークを介して、互いに通信し得る。ネットワークは、複数のネットワーク、又はネットワークのネットワークを含み得る。実例として、ネットワークは、１つ又は複数の広域ネットワーク（ＷＡＮ）、１つ又は複数のローカル・エリア・ネットワーク（ＬＡＮ）、インターネットのような１つ又は複数のパブリック・ネットワーク、及び／又は公衆交換電話網（ＰＳＴＮ）、並びに／或いは１つ又は複数のプライベート・ネットワークを含み得る。ネットワークが無線電気通信ネットワークを含む場合、基地局、通信タワー、又はさらにアクセス・ポイントのような構成要素は（他の構成要素と同様に）、無線接続性を提供し得る。

互換性のあるネットワーク環境が、１つ又は複数のピア・トゥ・ピア・ネットワーク環境を含み得、その場合サーバはネットワーク環境に含まれなくてもよく、且つ１つ又は複数のクライアント・サーバ・ネットワーク環境を含み得、その場合１つ又は複数のサーバはネットワーク環境に含まれ得る。ピア・トゥ・ピア・ネットワーク環境では、サーバに関して本明細書で説明される機能は、任意の数のクライアント・デバイス上に実装され得る。

少なくとも１つの実施例では、ネットワーク環境は、１つ又は複数のクラウド・ベースのネットワーク環境、分散化されたコンピュータ環境、その組合せなどを含み得る。クラウド・ベースのネットワーク環境は、１つ又は複数のコア・ネットワーク・サーバ及び／又はエッジ・サーバを含み得る、サーバのうちの１つ又は複数上に実装された、フレームワーク層、ジョブ・スケジューラ、資源マネージャ、及び分散ファイル・システムを含み得る。フレームワーク層は、ソフトウェア層のソフトウェアを、及び／又はアプリケーション層の１つ又は複数のアプリケーションを支援するために、フレームワークを含み得る。ソフトウェア又はアプリケーションは、ウェブベースのサービス・ソフトウェア又はアプリケーションをそれぞれ含み得る。実施例では、クライアント・デバイスのうちの１つ又は複数は、ウェブベースのサービス・ソフトウェア又はアプリケーションを使用し得る（たとえば、１つ又は複数のアプリケーション・プログラム・インターフェース（ＡＰＩ）を介して、サービス・ソフトウェア及び／又はアプリケーションにアクセスすることによって）。フレームワーク層は、限定はされないが、大規模データ処理（たとえば、「ビッグ・データ」）のための分散ファイル・システムを使用し得るような、無料でオープン・ソース・タイプのソフトウェア・ウェブ・アプリケーション・フレームワークであり得る。

クラウド・ベースのネットワーク環境は、本明細書で（又はその１つ又は複数の部分で）説明されたコンピュータ処理及び／又はデータ記憶機能のうちの任意の組合せを実行する、クラウド・コンピューティング及び／又はクラウド・ストレージを提供し得る。これらの多様な機能のうちの任意のものは、中央又はコア・サーバ（たとえば、州、地域、国、世界などにまたがって分散され得る１つ又は複数のデータ・センタの）から、複数の位置にわたって分散され得る。ユーザ（たとえば、クライアント・デバイス）への接続が比較的エッジ・サーバに近接している場合、コア・サーバは、機能の少なくとも一部分をエッジ・サーバに指定し得る。クラウド・ベースのネットワーク環境は、専用であり得（たとえば、単一の組織に限定された）、公開であり得（たとえば、多くの組織が利用可能な）、且つ／又はその組合せであり得る（たとえば、ハイブリッドのクラウド環境）。

クライアント・デバイスは、図６に関して本明細書で説明された、実例のコンピュータ・デバイス６００の、少なくとものいくつかの構成要素、特徴、及び機能を含み得る。実例を挙げると、限定されないが、クライアント・デバイスは、パーソナル・コンピュータ（ＰＣ：ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップ・コンピュータ、モバイル・デバイス、スマートフォン、タブレット・コンピュータ、スマート・ウォッチ、装着型コンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＭＰ３再生装置、仮想現実ヘッドセット、全地球測位システム（ＧＰＳ）又はデバイス、ビデオ再生装置、ビデオ・カメラ、監視デバイス又はシステム、車両、ボート、飛行船、仮想機械、ドローン、ロボット、ハンドヘルド通信デバイス、病院デバイス、ゲーミング・デバイス又はシステム、娯楽システム、車両コンピュータ・システム、埋め込みシステムコントローラ、遠隔制御、アプライアンス、家庭用電子デバイス、ワークステーション、エッジ・デバイス、これらの記述されたデバイスの任意の組合せ、或いは他の任意の好適なデバイスとして、具現化され得る。

本開示は、パーソナル・データ・アシスタント又は他のハンド・ヘルド・デバイスのような、コンピュータ又は他の機械によって実行される、プログラム・モジュールのようなコンピュータ実行可能命令を含む、コンピュータ・コード又は機械使用可能な命令の一般的な文脈で記述され得る。通常、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む、プログラム・モジュールは、特定のタスクを遂行する又は特定の抽象データ・タイプを実施する、コードを指す。本開示は、ハンド・ヘルド・デバイス、家電製品、汎用コンピュータ、より特殊なコンピュータ・デバイスなどを含む、種々のシステム構成で、実践され得る。本開示は、タスクが、通信ネットワークを通して結合された、遠隔処理デバイスによって遂行される、分散化されたコンピュータ環境で、やはり実践され得る。

本明細書で使用されるように、２つ以上の構成要素に関して「及び／又は」の詳述は、１つのだけの構成要素、又は構成要素の組合せを意味すると、解釈されるべきである。たとえば、「構成要素Ａ、構成要素Ｂ、及び／又は構成要素Ｃ」は、構成要素Ａのみ、構成要素Ｂのみ、構成要素Ｃのみ、構成要素Ａ及び構成要素Ｂ、構成要素Ａ及び構成要素Ｃ、構成要素Ｂ及び構成要素Ｃ、又は構成要素Ａ、Ｂ、及びＣを含み得る。加えて、「構成要素Ａ又は構成要素Ｂのうちの少なくとも１つ」は、構成要素Ａのうちの少なくとも１つ、構成要素Ｂのうちの少なくとも１つ、又は構成要素Ａのうちの少なくとも１つ及び構成要素Ｂのうちの少なくとも１つを含み得る。さらに、「構成要素Ａ及び構成要素Ｂのうちの少なくとも１つ」は、構成要素Ａのうちの少なくとも１つ、構成要素Ｂのうちの少なくとも１つ、又は構成要素Ａのうちの少なくとも１つ及び構成要素Ｂのうちの少なくとも１つを含み得る。

本開示の主題は、法定の要件を満足するために、本明細書での特殊性と共に記述されている。しかしながら、記述自体は、本開示の範囲を限定するものではない。むしろ、発明者らは、他の存在又は将来の技術と併せて、本文書内に記述されたものに類似した異なるステップ又はステップの組合せを含めるために、特許請求する主題が、他の方法でさらに具現化され得ることを意図してきた。また、用語「ステップ」及び／又は「ブロック」は、利用される異なる方法の構成要素を暗示するために、本明細書では用いられ得、本用語は、個々のステップの順序が明示的に記述されている場合でない限り及びその場合を除いて、本明細書で開示された様々なステップ間での任意の特定の順序を意味するものとして解釈されるべきでない。

Claims

会話型人工知能（ＡＩ）アプリケーションに対するクエリを表す入力データをデバイスから取得し、
前記クエリに関連付けられたインテント及び１つ又は複数のスロットを決定し、
前記１つ又は複数のスロットのうちの少なくとも１つのスロットに関連付けられたデータを構造化データ構造の第１の検索が返せなかったことの結果として、質問応答モデルに非構造化データ構造の第２の検索を実行させ、
前記非構造化データ構造から取得されたデータに少なくとも部分的に基づいて前記クエリに対する応答を生成する、
１つ又は複数の回路を備える、プロセッサ。
前記非構造化データ構造が、ユーザに関連付けられたドキュメントを含み、前記ドキュメントが、前記ユーザと前記会話型ＡＩアプリケーションとの間の１つ又は複数の事前の対話に少なくとも部分的に基づいてデータ入力される、請求項１に記載のプロセッサ。
前記非構造化データ構造が、前記会話型ＡＩアプリケーションとユーザとの間の対話の記録を含む、請求項１に記載のプロセッサ。
前記非構造化データ構造が、前記会話型ＡＩアプリケーションのユーザ・セットのユーザに特有のユーザ識別に関連付けられている、請求項１に記載のプロセッサ。
前記１つ又は複数の回路が、
前記スロットに関連付けられた前記データを前記第２の検索が返せなかったと決定し、
前記ユーザに対して、前記スロットに関連付けられた前記データを求める要求を生成し、
前記スロットに関連付けられた前記データを前記非構造化データ構造に記憶させる
回路をさらに含む、請求項１に記載のプロセッサ。
前記インテントが、情報を求める要求に対応するデータを取り出すインテントを含む、請求項１に記載のプロセッサ。
前記１つ又は複数の回路が、前記非構造化データ構造を分析して前記１つ又は複数のスロットに追加する１つ又は複数のさらなるスロットを決定する回路をさらに備える、請求項１に記載のプロセッサ。
前記会話型ＡＩアプリケーションが、会話型ＡＩプラットフォーム、車両の車内アプリケーション、飲食物注文アプリケーション、コンピュータ支援設計（ＣＡＤ）アプリケーション、カスタマ・サービス・アプリケーション、ウェブ・サービス・アプリケーション、スマート・スピーカ若しくはスマート・ディスプレイ・アプリケーション、小売アプリケーション、金融アプリケーション、又は食品サービス・アプリケーションのうちの少なくとも１つである、請求項１に記載のプロセッサ。
自律的若しくは半自律的機械のための制御システム、
自律的若しくは半自律的機械のための認知システム、
シミュレーション動作を実行するためのシステム、
深層学習動作を実行するためのシステム、
エッジ・デバイスを使用して実装されるシステム、
ロボットを使用して実装されるシステム、
１つ若しくは複数の仮想機械（ＶＭ）を組み込むシステム、
データ・センタにおいて少なくとも部分的に実装されるシステム、
３次元（３Ｄ）コンテンツ用の協調的生成プラットフォームを含むシステム、又は
クラウド計算資源を使用して少なくとも部分的に実装されるシステム
のうちの少なくとも１つに含まれる、請求項１に記載のプロセッサ。
会話型人工知能（ＡＩ）プラットフォームに向けられたクエリを受信し、
前記クエリに関連付けられたタグを決定し、
前記タグに関連付けられたデータが構造化データ構造に記憶されていないと決定し、
前記データを非構造化データ構造から取得し、
前記データに少なくとも部分的に基づいて前記クエリに対する応答を生成する、
処理回路を備える、
１つ又は複数の処理ユニットを備える、システム。
前記処理回路が、前記クエリと前記応答とを表すデータを前記非構造化データ構造にさらに記憶する、請求項１０に記載のシステム。
前記クエリが自動音声認識アプリケーションから取得される、請求項１０に記載のシステム。
前記応答が、テキスト発語化アルゴリズムに少なくとも部分的に基づいて生成された音声データを含む、請求項１０に記載のシステム。
自律的若しくは半自律的機械のための制御システム、
自律的若しくは半自律的機械のための認知システム、
シミュレーション動作を実行するためのシステム、
深層学習動作を実行するためのシステム、
エッジ・デバイスを使用して実装されるシステム、
ロボットを使用して実装されるシステム、
１つ若しくは複数の仮想機械（ＶＭ）を組み込むシステム、
データ・センタにおいて少なくとも部分的に実装されるシステム、
３次元（３Ｄ）コンテンツ用の協調的生成プラットフォームを含むシステム、又は
クラウド計算資源を使用して少なくとも部分的に実装されるシステム
のうちの少なくとも１つに含まれる、請求項１０に記載のシステム。
ユーザと会話型人工知能（ＡＩ）エージェントとの間の対話を表すデータを非構造化データ構造に記憶するステップと、
前記会話型ＡＩエージェントに向けられたクエリを取得するステップと、
前記クエリに対する応答の少なくとも一部が構造化データ構造において入手可能ではないと決定するステップと、
前記応答の前記一部を前記非構造化データ構造から取得するステップと、
前記非構造化データ構造から取得された前記応答の前記一部に少なくとも部分的に基づいて前記応答を生成するステップと
を含む、方法。
前記クエリに関連付けられた領域情報を、前記非構造化データに少なくとも部分的に基づいて決定するステップをさらに含む、請求項１５に記載の方法。
映像、音声、又は文字が、ユーザ・デバイスのカメラ、マイクロフォン、又は入力デバイスのうちの少なくとも１つによって生成される、請求項１５に記載の方法。
前記構造化データ構造が、ＪａｖａＳｃｒｉｐｔ（登録商標）オブジェクト表記法（ＪＳＯＮ）データ・オブジェクトを含む、請求項１５に記載の方法。
前記非構造化データ構造が、前記ユーザと会話型ＡＩエージェントとの間の対話のセットを含むドキュメントを含む、請求項１５に記載の方法。
前記応答の前記一部が、前記クエリに関連付けられた第２の領域とは別の第１の領域に関連付けられる、請求項１５に記載の方法。