JP7203865B2 - ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 - Google Patents
ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 Download PDFInfo
- Publication number
- JP7203865B2 JP7203865B2 JP2020562767A JP2020562767A JP7203865B2 JP 7203865 B2 JP7203865 B2 JP 7203865B2 JP 2020562767 A JP2020562767 A JP 2020562767A JP 2020562767 A JP2020562767 A JP 2020562767A JP 7203865 B2 JP7203865 B2 JP 7203865B2
- Authority
- JP
- Japan
- Prior art keywords
- automated assistant
- dialog state
- data indicative
- client
- computing service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims description 32
- 230000000007 visual effect Effects 0.000 claims description 142
- 230000001755 vocal effect Effects 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 60
- 230000004044 response Effects 0.000 claims description 28
- 230000007704 transition Effects 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 238000009877 rendering Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000010438 heat treatment Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 235000013550 pizza Nutrition 0.000 description 3
- 238000010079 rubber tapping Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/448—Execution paradigms, e.g. implementations of programming paradigms
- G06F9/4498—Finite state machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
107 視覚センサ、カメラ
108 自動化されたアシスタントクライアント、クライアント部分
109 マイクロフォン
110 スピーチキャプチャモジュール
1121 視覚的手がかりモジュール
1122 クラウドベースの視覚的手がかりモジュール
113 呼び出しモジュール
114 ローカルおよび/またはワイドエリアネットワーク、視覚的手がかりモデルデータベース
116 クラウドベースのテキスト-スピーチモジュール
117 クラウドベースのSTTモジュール
119 クラウドベースの自動化されたアシスタント構成要素、サーバ部分
120 自動化されたアシスタント
122 自然言語プロセッサ
124 履行モジュール
126 自然言語生成器
135 自然言語理解モジュール、意図照合器
140 サードパーティコンピューティングサービス
150 検索モジュール
242 ライブラリ
244 没入型エンジン
246 JavaScriptコントローラ
248 組み込みブラウザ
301 ユーザ
306 クライアントデバイス、コンピューティングデバイス
306A クライアントデバイス
306B クライアントデバイス、ディスプレイ
506 クライアントデバイス、コンピューティングデバイス
5561 タイル
5562 タイル
5563 タイル
5564 タイル
5565 タイル
570 タッチスクリーン、ディスプレイ
706 クライアントデバイス、コンピューティングデバイス
7561 タイル
7562 カード
770 タッチスクリーンディスプレイ
1010 コンピューティングデバイス
1012 バスサブシステム
1014 プロセッサ
1016 ネットワークインターフェースサブシステム
1020 ユーザインターフェース出力デバイス
1022 ユーザインターフェース入力デバイス
1024 記憶サブシステム
1025 メモリサブシステム、メモリ
1030 メインランダムアクセスメモリ(RAM)
1032 読み取り専用メモリ(ROM)
Claims (23)
- システムであって、
ディスプレイを有する少なくとも1つのクライアントコンピューティングデバイスであって、前記クライアントコンピューティングデバイスが、自動化されたアシスタントのクライアント部分を実行する、少なくとも1つのクライアントコンピューティングデバイスと、
前記自動化されたアシスタントのサーバ部分を実行する1つまたは複数のサーバコンピューティングデバイスと
を備え、
ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために前記クライアント部分とインタラクションし、
前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わり、
前記自動化されたアシスタントの前記クライアント部分が、
前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記視覚的ダイアログステートマシンの第1の視覚的ダイアログ状態を示すデータを受信することと、
前記第1の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングすることであって、前記グラフィカルユーザインターフェースが、前記口頭ダイアログステートマシンを、前記第1の視覚的ダイアログ状態に対応する第1の口頭ダイアログ状態から第2の口頭ダイアログ状態に遷移させるように動作可能な少なくとも1つのグラフィカル要素を含む、レンダリングすることと、
前記ユーザによる前記少なくとも1つのグラフィカル要素の動作を検出することと、
前記自動化されたアシスタントの前記サーバ部分に、前記少なくとも1つのグラフィカル要素の動作を示すデータを提供することと
を行うように構成され、
前記自動化されたアシスタントの前記サーバ部分が、
前記少なくとも1つのグラフィカル要素の動作を示す前記データを、前記サードパーティコンピューティングサービスに提供することであって、前記少なくとも1つのグラフィカル要素の動作を示す前記データが、前記サードパーティコンピューティングサービスを、前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移させる、提供することを行うように構成される、
システム。 - 前記自動化されたアシスタントの前記サーバ部分が、
前記サードパーティコンピューティングサービスから、前記第2の口頭ダイアログ状態を示すデータを受信することと、
前記自動化されたアシスタントの前記クライアント部分に、前記第2の口頭ダイアログ状態を示す前記データを提供することと
を行うようにさらに構成される、請求項1に記載のシステム。 - 前記第2の口頭ダイアログ状態を示す前記データが、テキストまたはオーディオデータを含み、クライアントデバイスが、前記第2の口頭ダイアログ状態を示す前記データを受信したことに応答して、
前記テキストを音声に変換し、前記音声を可聴にレンダリングすること、または、
前記オーディオデータを可聴にレンダリングすること
を行うようにさらに構成される、請求項1に記載のシステム。 - 前記自動化されたアシスタントの前記サーバ部分から前記サードパーティコンピューティングサービスへの、前記少なくとも1つのグラフィカル要素の動作を示す前記データの提供が、前記サードパーティコンピューティングサービスを、前記第1の視覚的ダイアログ状態から第2の視覚的ダイアログ状態に遷移させる、請求項1から3のいずれか一項に記載のシステム。
- 前記第2の視覚的ダイアログ状態が、前記第2の口頭ダイアログ状態に対応する、請求項4に記載のシステム。
- 前記自動化されたアシスタントの前記クライアント部分が、
前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記第2の視覚的ダイアログ状態を示すデータを受信することと、
前記第2の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連付けられた更新されたグラフィカルユーザインターフェースをレンダリングすることと
を行うようにさらに構成される、請求項5に記載のシステム。 - 前記第2の視覚的ダイアログ状態を示す前記データが、クライアントデバイスに、前記更新されたグラフィカルユーザインターフェースをレンダリングさせてタッチレスインタラクションを自動的に実行させる、請求項6に記載のシステム。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項7に記載のシステム。 - 前記サードパーティコンピューティングサービスが前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移した後、
前記自動化されたアシスタントの前記クライアント部分が、
前記ユーザから、前記クライアントコンピューティングデバイスの1つまたは複数の入力構成要素において、音声の自由形式の入力を受信することと、
前記自動化されたアシスタントの前記サーバ部分に、前記音声の自由形式の入力を示すデータを提供することと、
前記自動化されたアシスタントの前記サーバ部分から、表示内容を示すデータを受信することであって、
前記自動化されたアシスタントの前記サーバ部分が、前記サードパーティコンピューティングサービスに、前記音声の自由形式の入力を示す前記データ、または前記音声の自由形式の入力を示す前記データに基づく追加データを提供したことに基づいて、前記サードパーティコンピューティングサービスから前記表示内容を示す前記データを取得し、
前記サードパーティコンピューティングサービスが、前記受信したデータまたは追加データに基づいて、かつ第2の口頭ダイアログ状態に前記遷移したことに基づいて、前記表示内容を示す前記データを生成する、
受信することと、
前記受信した表示内容に基づいて、前記グラフィカルユーザインターフェースにおけるタッチレスインタラクションをトリガすることと
を行うようにさらに構成される、請求項1から8のいずれか一項に記載のシステム。 - 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項1から7のいずれか一項を引用する請求項9に記載のシステム。 - システムであって
ディスプレイを有する少なくとも1つのクライアントコンピューティングデバイスであって、前記クライアントコンピューティングデバイスが、自動化されたアシスタントのクライアント部分を実行する、少なくとも1つのクライアントコンピューティングデバイスと、
前記自動化されたアシスタントのサーバ部分を実行する1つまたは複数のサーバコンピューティングデバイスと
を備え、
ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために前記クライアント部分とインタラクションし、
前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わり、
前記自動化されたアシスタントの前記クライアント部分が、
前記クライアントコンピューティングデバイスの前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングすることと、
前記ユーザから、前記クライアントコンピューティングデバイスの1つまたは複数の入力構成要素において、音声の自由形式の入力を受信することと、
前記自動化されたアシスタントの前記サーバ部分に、前記音声の自由形式の入力を示すデータを提供することと、
前記自動化されたアシスタントの前記サーバ部分から、表示内容を示すデータを受信することと、
前記表示内容に基づいて、前記ユーザと前記グラフィカルユーザインターフェースとの間のタッチレスインタラクションをトリガすることと
を行うように構成され、
前記自動化されたアシスタントの前記サーバ部分が、
前記音声の自由形式の入力を示す前記データに基づいて、前記ユーザの意図を決定することと、
前記意図を示すデータを、前記サードパーティコンピューティングサービスに提供することであって、前記意図を示す前記データが、前記サードパーティコンピューティングサービスに、解決情報を生成するために前記意図を解決させる、提供することと、
前記意図を示す前記データの提供に応答して、前記サードパーティコンピューティングサービスから前記表示内容を受信することであって、前記表示内容が、前記人間対コンピュータのダイアログセッションに関連して前記サードパーティコンピューティングサービスのために維持され、前記ユーザの前記意図と前記解決情報のうちの一方または両方に少なくとも部分的に基づいて更新される、受信することと
を行うように構成される、
システム。 - 前記グラフィカルユーザインターフェースが、前記自動化されたアシスタントの前記クライアント部分に組み込まれたウェブブラウザを備える、請求項11に記載のシステム。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項11または12に記載のシステム。 - 1つまたは複数のプロセッサによって実行される方法であって、
ディスプレイを有するクライアントデバイスにおいて、自動化されたアシスタントのクライアント部分を実行するステップと、
1つまたは複数のサーバコンピューティングデバイスにおいて、前記自動化されたアシスタントのサーバ部分を実行するステップであって、ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために、前記クライアント部分とインタラクションし、前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わる、ステップと、
前記クライアント部分において、前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記視覚的ダイアログステートマシンの第1の視覚的ダイアログ状態を示すデータを受信するステップと、
前記クライアント部分によって、前記第1の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングするステップであって、前記グラフィカルユーザインターフェースが、前記口頭ダイアログステートマシンを、前記第1の視覚的ダイアログ状態に対応する第1の口頭ダイアログ状態から第2の口頭ダイアログ状態に遷移させるように動作可能な少なくとも1つのグラフィカル要素を含む、ステップと、
前記クライアント部分によって、前記ユーザによる前記少なくとも1つのグラフィカル要素の動作を検出するステップと、
前記クライアント部分によって、前記自動化されたアシスタントの前記サーバ部分に、前記少なくとも1つのグラフィカル要素の動作を示すデータを提供するステップと、
前記サーバ部分によって、前記少なくとも1つのグラフィカル要素の動作を示す前記データを、前記サードパーティコンピューティングサービスに提供するステップであって、前記少なくとも1つのグラフィカル要素の動作を示す前記データが、前記サードパーティコンピューティングサービスを、前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移させる、ステップと
を含む、方法。 - 前記サーバ部分によって、前記サードパーティコンピューティングサービスから、前記第2の口頭ダイアログ状態を示すデータを受信するステップと、
前記サーバ部分によって、前記自動化されたアシスタントの前記クライアント部分に、前記第2の口頭ダイアログ状態を示す前記データを提供するステップと
をさらに含む、請求項14に記載の方法。 - 前記自動化されたアシスタントの前記サーバ部分から前記サードパーティコンピューティングサービスへの、前記少なくとも1つのグラフィカル要素の動作を示す前記データの提供が、前記サードパーティコンピューティングサービスを、前記第1の視覚的ダイアログ状態から第2の視覚的ダイアログ状態に遷移させる、請求項14または15に記載の方法。
- 1つまたは複数のプロセッサを使用して実行される方法であって、
前記1つまたは複数のプロセッサによって少なくとも部分的に実行されたコンピューティングサービスによって、自動化されたアシスタントから、ユーザと前記自動化されたアシスタントとの間の人間対コンピュータのダイアログセッションの一部として前記自動化されたアシスタントと通信しているコンピューティングデバイスの前記ユーザの意図を示すデータを受信するステップであって、前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わる、ステップと、
解決情報を生成するために前記ユーザの前記意図を解決するステップと、
前記人間対コンピュータのダイアログセッションに関連して前記コンピューティングサービスのために維持された表示内容を更新するステップであって、前記更新するステップが、前記意図と前記解決情報のうちの一方または両方に少なくとも部分的に基づく、ステップと、
前記表示内容を示すデータを前記自動化されたアシスタントに提供するステップであって、前記表示内容を示す前記データが、前記自動化されたアシスタントによって前記コンピューティングデバイスに提供され、前記表示内容を示す前記データが、前記コンピューティングデバイス上で実行されているアシスタントアプリケーションに、前記ユーザと前記アシスタントアプリケーションのグラフィカルユーザインターフェースとの間のタッチレスインタラクションをトリガさせる、ステップと
を含む、方法。 - 前記グラフィカルユーザインターフェースが、前記アシスタントアプリケーション内に組み込まれたウェブブラウザを備える、請求項17に記載の方法。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項17または18に記載の方法。 - 前記ユーザの前記意図を示す前記データが、前記コンピューティングデバイスにおいて前記ユーザによって提供された音声の自由形式の入力の音声認識出力を含む、請求項17から19のいずれか一項に記載の方法。
- 前記コンピューティングサービスによって、前記音声認識出力に基づいて前記ユーザの前記意図を決定するステップをさらに含む、請求項20に記載の方法。
- 1つまたは複数のプロセッサによる命令の実行に応答して、前記1つまたは複数のプロセ ッサに請求項14から21のいずれか一項に記載の方法を実行させる命令を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサに動作可能に結合されたメモリとを備えるシステムであって、前記メモリが、1つまたは複数のプロセッサによる命令の実行に応答して、前記1つまたは複数のプロセッサに請求項14から21のいずれか一項に記載の方法を実行させる前記命令を記憶する、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022180485A JP7513684B2 (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/031444 WO2019216875A1 (en) | 2018-05-07 | 2018-05-07 | Multi-modal interaction between users, automated assistants, and other computing services |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022180485A Division JP7513684B2 (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021523467A JP2021523467A (ja) | 2021-09-02 |
JP7203865B2 true JP7203865B2 (ja) | 2023-01-13 |
Family
ID=62555178
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020562767A Active JP7203865B2 (ja) | 2018-05-07 | 2018-05-07 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
JP2022180485A Active JP7513684B2 (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022180485A Active JP7513684B2 (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10984786B2 (ja) |
EP (1) | EP3586332A1 (ja) |
JP (2) | JP7203865B2 (ja) |
KR (3) | KR102669152B1 (ja) |
CN (1) | CN112868060B (ja) |
WO (1) | WO2019216875A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3586332A1 (en) | 2018-05-07 | 2020-01-01 | Google LLC. | Multi-modal interaction between users, automated assistants, and other computing services |
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
WO2020175384A1 (en) * | 2019-02-25 | 2020-09-03 | Clarion Co., Ltd. | Hybrid voice interaction system and hybrid voice interaction method |
US11615786B2 (en) * | 2019-03-05 | 2023-03-28 | Medyug Technology Private Limited | System to convert phonemes into phonetics-based words |
US20220091707A1 (en) | 2020-09-21 | 2022-03-24 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US11381713B2 (en) * | 2020-11-10 | 2022-07-05 | Warner Bros. Entertainment Inc. | Perfless and cadenceless scanning and digitization of motion picture film |
US20220157323A1 (en) * | 2020-11-16 | 2022-05-19 | Bank Of America Corporation | System and methods for intelligent training of virtual voice assistant |
US12008048B2 (en) * | 2021-01-04 | 2024-06-11 | Oracle International Corporation | Drill back to original audio clip in virtual assistant initiated lists and reminders |
US11967317B2 (en) | 2021-02-18 | 2024-04-23 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
CN113297359B (zh) * | 2021-04-23 | 2023-11-28 | 阿里巴巴新加坡控股有限公司 | 交互信息的方法以及装置 |
US11947906B2 (en) | 2021-05-19 | 2024-04-02 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US20230074406A1 (en) * | 2021-09-07 | 2023-03-09 | Google Llc | Using large language model(s) in generating automated assistant response(s |
US20230177255A1 (en) * | 2021-12-03 | 2023-06-08 | International Business Machines Corporation | Conversational agent counterfactual simulation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318132A (ja) | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US20100094635A1 (en) | 2006-12-21 | 2010-04-15 | Juan Jose Bermudez Perez | System for Voice-Based Interaction on Web Pages |
JP2013517566A (ja) | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
WO2018034028A1 (ja) | 2016-08-16 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7019749B2 (en) | 2001-12-28 | 2006-03-28 | Microsoft Corporation | Conversational interface agent |
US7684985B2 (en) * | 2002-12-10 | 2010-03-23 | Richard Dominach | Techniques for disambiguating speech input using multimodal interfaces |
US8793602B2 (en) | 2004-01-15 | 2014-07-29 | The Mathworks, Inc. | System and method for scheduling the execution of model components using model events |
EP1615124A1 (en) * | 2004-07-07 | 2006-01-11 | Alcatel Alsthom Compagnie Generale D'electricite | A method for handling a multi-modal dialog |
US9436820B1 (en) | 2004-08-02 | 2016-09-06 | Cisco Technology, Inc. | Controlling access to resources in a network |
US9224394B2 (en) * | 2009-03-24 | 2015-12-29 | Sirius Xm Connected Vehicle Services Inc | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7885388B2 (en) * | 2006-01-17 | 2011-02-08 | General Motors Llc | Method and apparatus for initiating communication via a multi-mode system in a vehicle |
DE102008051756A1 (de) * | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8952987B2 (en) | 2011-05-19 | 2015-02-10 | Qualcomm Incorporated | User interface elements augmented with force detection |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10107887B2 (en) * | 2012-04-13 | 2018-10-23 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
US9223537B2 (en) * | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US9378065B2 (en) | 2013-03-15 | 2016-06-28 | Advanced Elemental Technologies, Inc. | Purposeful computing |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US9292254B2 (en) | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
CN105284099B (zh) * | 2013-06-08 | 2019-05-17 | 苹果公司 | 针对免提交互来自动调整用户界面 |
US9600227B2 (en) | 2013-11-21 | 2017-03-21 | Google Technology Holdings LLC | System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
CN112270925B (zh) * | 2014-09-14 | 2024-05-10 | 谷歌有限责任公司 | 用于创建可定制对话***引擎的平台 |
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
CN107112016B (zh) * | 2015-01-05 | 2020-12-29 | 谷歌有限责任公司 | 多模态状态循环 |
US10050868B2 (en) | 2015-01-16 | 2018-08-14 | Sri International | Multimodal help agent for network administrator |
US10762143B2 (en) | 2015-02-13 | 2020-09-01 | Microsoft Technology Licensing, Llc | Extension of third party application functionality for intent determination |
US20170277364A1 (en) | 2016-03-22 | 2017-09-28 | Amazon Technologies, Inc. | User interface with dynamic refinement of filtered results |
US10304444B2 (en) | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
EP3465392B1 (en) * | 2016-06-06 | 2021-02-17 | Nureva Inc. | Time-correlated touch and speech command input |
US20180131642A1 (en) | 2016-11-04 | 2018-05-10 | Microsoft Technology Licensing, Llc | Conversation runtime |
US10311875B2 (en) | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10832666B2 (en) | 2017-04-19 | 2020-11-10 | Verizon Patent And Licensing Inc. | Advanced user interface for voice search and results display |
US10796088B2 (en) | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US11423879B2 (en) | 2017-07-18 | 2022-08-23 | Disney Enterprises, Inc. | Verbal cues for high-speed control of a voice-enabled device |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
CN110741347B (zh) | 2017-10-03 | 2023-08-01 | 谷歌有限责任公司 | 车辆环境中的多个数字助理协调 |
US10453454B2 (en) | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
US10896457B2 (en) * | 2017-12-12 | 2021-01-19 | Amazon Technologies, Inc. | Synchronized audiovisual responses to user requests |
US20190278562A1 (en) | 2018-03-07 | 2019-09-12 | John Hien Tang | System and method for voice control of a computing device |
WO2019195799A1 (en) * | 2018-04-05 | 2019-10-10 | Synaptics Incorporated | Context-aware control for smart devices |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
WO2019203859A1 (en) | 2018-04-19 | 2019-10-24 | Google Llc | Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant |
KR20230173211A (ko) | 2018-05-04 | 2023-12-26 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
EP3635513B1 (en) | 2018-05-04 | 2021-07-07 | Google LLC | Selective detection of visual cues for automated assistants |
US10890969B2 (en) | 2018-05-04 | 2021-01-12 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
EP3586332A1 (en) | 2018-05-07 | 2020-01-01 | Google LLC. | Multi-modal interaction between users, automated assistants, and other computing services |
US11200893B2 (en) | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US11347801B2 (en) | 2018-05-07 | 2022-05-31 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US10628987B2 (en) | 2018-05-08 | 2020-04-21 | Google Llc | Condensed transitions of graphical elements presented in graphical user interfaces |
-
2018
- 2018-05-07 EP EP18729841.9A patent/EP3586332A1/en active Pending
- 2018-05-07 CN CN201880094239.6A patent/CN112868060B/zh active Active
- 2018-05-07 JP JP2020562767A patent/JP7203865B2/ja active Active
- 2018-05-07 KR KR1020227042846A patent/KR102669152B1/ko active IP Right Grant
- 2018-05-07 KR KR1020207033522A patent/KR102476621B1/ko active IP Right Grant
- 2018-05-07 WO PCT/US2018/031444 patent/WO2019216875A1/en unknown
- 2018-05-07 KR KR1020247016878A patent/KR20240090703A/ko unknown
- 2018-05-07 US US15/774,950 patent/US10984786B2/en active Active
-
2021
- 2021-03-04 US US17/192,230 patent/US11735182B2/en active Active
-
2022
- 2022-11-10 JP JP2022180485A patent/JP7513684B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318132A (ja) | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US20100094635A1 (en) | 2006-12-21 | 2010-04-15 | Juan Jose Bermudez Perez | System for Voice-Based Interaction on Web Pages |
JP2013517566A (ja) | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
WO2018034028A1 (ja) | 2016-08-16 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20240090703A (ko) | 2024-06-21 |
US10984786B2 (en) | 2021-04-20 |
JP2021523467A (ja) | 2021-09-02 |
KR102476621B1 (ko) | 2022-12-12 |
CN112868060A (zh) | 2021-05-28 |
US20200294497A1 (en) | 2020-09-17 |
CN112868060B (zh) | 2024-07-12 |
EP3586332A1 (en) | 2020-01-01 |
US20210193146A1 (en) | 2021-06-24 |
JP7513684B2 (ja) | 2024-07-09 |
JP2023017956A (ja) | 2023-02-07 |
KR102669152B1 (ko) | 2024-05-27 |
KR20210002599A (ko) | 2021-01-08 |
US11735182B2 (en) | 2023-08-22 |
WO2019216875A1 (en) | 2019-11-14 |
KR20230003281A (ko) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7203865B2 (ja) | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
JP7418526B2 (ja) | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード | |
US11775254B2 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
KR102498811B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
JP7384976B2 (ja) | 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること | |
JP7471371B2 (ja) | アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択 | |
US20230343336A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
CN110688011B (zh) | 基于多模态客户端设备的模态的动态列表构成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221110 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221110 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221121 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7203865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |