JP2018513431A - クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること - Google Patents

クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること Download PDF

Info

Publication number
JP2018513431A
JP2018513431A JP2017534655A JP2017534655A JP2018513431A JP 2018513431 A JP2018513431 A JP 2018513431A JP 2017534655 A JP2017534655 A JP 2017534655A JP 2017534655 A JP2017534655 A JP 2017534655A JP 2018513431 A JP2018513431 A JP 2018513431A
Authority
JP
Japan
Prior art keywords
user
intent
language understanding
computing device
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017534655A
Other languages
English (en)
Other versions
JP6744314B2 (ja
Inventor
セナ カナン,ヴィシュワク
セナ カナン,ヴィシュワク
ユーゼラック,アレクサンダー
ジェイ. ウォン,ダニエル
ジェイ. ウォン,ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2018513431A publication Critical patent/JP2018513431A/ja
Application granted granted Critical
Publication of JP6744314B2 publication Critical patent/JP6744314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

言語理解分類子モデルを更新するための方法が、コンピューティングデバイスのユーザからのデジタル音声入力を、コンピューティングデバイスの1つまたは複数のマイクロホンを介して受け取ることを含む。デジタル音声入力を使用する自然言語処理が使用されてユーザ音声要求を決定する。ユーザ音声要求がデジタルパーソナルアシスタントのスキーマ定義における複数の予め定義された音声コマンドの少なくとも1つとも一致しないと決定すると、エンドユーザラベリングツールのGUIが使用されて、複数の利用可能なインテントの少なくとも1つのインテントおよび/または少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つのユーザ選択を受け取る。ユーザ音声要求およびユーザ選択をペアリングすることによって、ラベル付きデータセットが生成され、言語理解分類子を更新するために使用される。

Description

[0001] コンピューティング技術が進歩するにつれて、ますます強力なモバイルデバイスが利用可能になった。たとえば、スマートフォンおよび他のコンピューティングデバイスが珍しくなくなった。そのようなデバイスの処理能力は、デジタルパーソナルアシスタントに関する機能など、異なる種類の機能が開発されることに帰着した。
[0002] デジタルパーソナルアシスタントは、個人のためにタスクまたはサービスを行うために使用することができる。たとえば、デジタルパーソナルアシスタントは、モバイルデバイスまたはデスクトップコンピュータ上で動作するソフトウェアモジュールであることができる。追加的に、モバイルデバイス内に実装されるデジタルパーソナルアシスタントは、ユーザ質問または音声コマンドに応答することができるように、双方向かつ組込み会話理解を有する。デジタルパーソナルアシスタントによって行うことができるタスクおよびサービスの例は、電話をかけること、電子メールまたはテキストメッセージを送ること、およびカレンダーリマインダを設定することを含むことができる。
[0003] デジタルパーソナルアシスタントがエージェントを使用して複数のタスクを行うように実装されてもよいとはいえ、各反応エージェントをプログラム/定義することは時間がかかることがある。したがって、デジタルパーソナルアシスタントを実装するための反応エージェント定義および関連した言語理解分類子モデルを作成および編集することに関連する技術の向上の十分な機会が存在する。
[0004] この「発明の概要」は、「発明を実施するための形態」にさらに下記の簡略形式の概念の抜粋を導入するために提供される。この「発明の概要」は、特許請求される主題の主要な特徴または必須の特徴を特定するものとは意図されず、それはまた、特許請求される主題の範囲を限定するために使用されるものとも意図されない。
[0005] 1つまたは複数の態様によれば、言語理解分類子モデルを更新するための方法が、コンピューティングデバイスのユーザからのデジタル音声入力を、コンピューティングデバイスの1つまたは複数のマイクロホンを介して受け取ることを含んでもよい。入力は、他の入力を使用して(たとえば、テキスト入力または他の種類の入力を介して)もユーザから受け取ることができる。デジタル音声入力を使用して自然言語処理が行われて、ユーザ音声要求を決定する。ユーザ音声要求がコンピューティングデバイス上で動作するデジタルパーソナルアシスタントのエージェント定義(たとえば、拡張可能マークアップ言語(XML)スキーマ定義)における複数の予め定義されたタスクの少なくとも1つとも一致しないと決定すると、コンピューティングデバイスのエンドユーザラベリングツール(EULT)のグラフィカルユーザインタフェースが使用されてユーザ選択を受け取ってもよい。タスクは、音声(またはテキスト入力される)コマンドによっての他に、ルールベースエンジン、機械学習分類子などを通じてなど、1つまたは複数の追加の手段によって定義されてもよい。ユーザ選択は、ドメインに対する複数の利用可能なインテントの少なくとも1つのインテントを含んでもよい。任意選択により、ユーザ選択は、少なくとも1つのインテントのための少なくとも1つのスロットも含んでもよい。少なくとも1つのインテントは、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられる。ユーザ選択に含まれるとき、少なくとも1つのスロットは、少なくとも1つのアクションを行うために使用される値を示す。ユーザ音声要求をユーザ選択(たとえば、選択されたドメイン、インテントおよび/またはスロット)とペアリングする(またはその他関連付ける)ことによって、ラベル付きデータセットが生成されてもよい。エージェント定義と関連付けられる複数の利用可能な言語理解分類子から言語理解分類子が選択されてもよく、選択することは少なくとも、ユーザによって選択された少なくとも1つのインテントに基づく。選択された言語理解分類子は、生成されたラベル付きデータセットに基づいて更新されてもよい。
[0006] 1つまたは複数の態様によれば、サーバコンピュータが、処理ユニットおよび処理ユニットに結合されたメモリを含む。サーバコンピュータは、言語理解分類子モデルを更新するための動作を行うように構成され得る。動作は、サーバコンピュータに通信可能に結合された複数のコンピューティングデバイスの少なくとも1つのコンピューティングデバイスから、複数の利用可能なインテントの少なくとも1つのインテントの第1のユーザ選択を受信することを含んでもよい。任意選択により、ユーザ選択は、少なくとも1つのインテントのための少なくとも1つのスロットも含んでもよい。ユーザ選択に含まれるとき、少なくとも1つのインテントは、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられてもよい。少なくとも1つのスロットは、少なくとも1つのアクションを行うために使用される値を示してもよい。第1のユーザ選択は、少なくとも1つのコンピューティングデバイスで受け取られるデジタル音声入力と関連付けられてもよい。第1のユーザ選択と同一である複数の後続のユーザ選択が、複数のコンピューティングデバイスの少なくとも別のコンピューティングデバイスから受信されてもよい。デジタル音声入力を第1のユーザ選択とペアリングすることによって、ラベル付きデータセットが生成されてもよい。1つまたは複数のXMLスキーマ定義と関連付けられる複数の利用可能な言語理解分類子から言語理解分類子が選択されてもよく、選択することは少なくとも、デジタル音声入力、第1のユーザ選択のドメイン、インテントおよび/またはスロットの1つまたは複数に基づく。選択された言語理解分類子は、生成されたラベル付きデータセットに基づいて更新されてもよい。
[0007] 1つまたは複数の態様によれば、コンピュータ可読記憶媒体が、実行時にコンピューティングデバイスに言語理解分類子モデルを更新するための動作を行わせる命令を含んでもよい。動作は、コンピューティングデバイスで受け取られるユーザ入力に基づいてユーザ要求を決定することを含んでもよい。ユーザ要求は、テキスト入力および音声入力の少なくとも1つを介して受け取られてもよく、要求は、コンピューティングデバイス上で動作するデジタルパーソナルアシスタントの機能に対してでもよい。動作は、ユーザ要求がデジタルパーソナルアシスタントの拡張可能マークアップ言語(XML)スキーマ定義における複数の予め定義されたタスク(たとえば、音声コマンド)の少なくとも1つとも一致しないと決定することをさらに含んでもよい。1つの実装では、ユーザ要求にXMLスキーマ定義と関連付けられる複数の利用可能な言語理解分類子を適用することによって、信頼スコアが生成されてもよい。信頼スコアが閾値より小さいと決定すると、コンピューティングデバイスのエンドユーザラベリングツール(EULT)のグラフィカルユーザインタフェースを使用して、ユーザ選択が受け取られてもよい。別の実装では、EULTを使用してドメイン、インテントおよび/またはスロット情報の少なくとも1つのユーザ選択を受け取るかどうかを決定するために、(たとえば、閾値を使用する代わりに)他の方法が使用されてもよい。ユーザ選択は、複数の利用可能なインテントの少なくとも1つのインテントを含んでもよい。任意選択により、ユーザ選択は、ドメインおよび/または少なくとも1つのインテントのための少なくとも1つのスロットを含んでもよい。少なくとも1つのインテントは、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられる。ユーザ選択に含まれるとき、少なくとも1つのスロットは、少なくとも1つのアクションを行うために使用される値を示してもよい。ユーザ音声要求およびユーザ選択をペアリングすることによって、ラベル付きデータセットが生成されてもよい。XMLスキーマ定義と関連付けられる複数の利用可能な言語理解分類子から言語理解分類子が選択されてもよく、選択することは、ユーザによって選択された少なくとも1つのインテントおよび/またはスロットに基づく。選択された言語理解分類子を生成されたラベル付きデータセットを使用して訓練する(たとえば、分類子を音声要求ならびにユーザ選択におけるドメイン、インテントおよび/またはスロットの少なくとも1つと関連付ける)ことによって、更新された言語理解分類子が生成されてもよい。
[0008] 本明細書に記載されるように、各種の他の特徴および利点を要望に応じて技術に組み込むことができる。
[0009]本開示の例示的な実施形態による、言語理解分類子モデルを更新するためのアーキテクチャ例を例示するブロック図である。 [0010]本開示の例示的な実施形態による、音声対応アプリケーションによる言語理解分類子の様々な使用を例示するブロック図である。 [0011]本開示の例示的な実施形態による、言語理解分類子モデルを更新するための処理サイクル例を例示する。 本開示の例示的な実施形態による、言語理解分類子モデルを更新するための処理サイクル例を例示する。 [0012]本開示の例示的な実施形態による使用されてもよいエンドユーザラベリングツールのユーザインタフェース例を例示する。 本開示の例示的な実施形態による使用されてもよいエンドユーザラベリングツールのユーザインタフェース例を例示する。 [0013]1つまたは複数の実施形態による、言語理解分類子モデルを更新することを例示するフロー図である。 1つまたは複数の実施形態による、言語理解分類子モデルを更新することを例示するフロー図である。 1つまたは複数の実施形態による、言語理解分類子モデルを更新することを例示するフロー図である。 [0014]本明細書に記載される革新が併せて実装されてもよいモバイルコンピューティングデバイス例を例示するブロック図である。 [0015]いくつかの記載される実施形態を実装することができるコンピューティングシステム例の図である。 [0016]本明細書に記載される技術と併せて使用することができるクラウドコンピューティング環境例である。
[0017] 本明細書に記載されるように、言語理解分類子モデルを更新するために、様々な技法および解決策を適用することができる。より詳細には、コンピューティングデバイス上で動作するデジタルパーソナルアシスタントと関連付けられる1つまたは複数のエージェントを定義するために、エージェント定義仕様(たとえば、音声コマンド定義(VCD)仕様、反応エージェント定義(RAD)仕様、または別の種類のコンピュータ可読文書)が使用されてもよい。エージェント定義仕様は、RADEを介して入力されて反応エージェント機能の可視化/宣言的表現を提供するドメイン情報、インテント情報、スロット情報、状態情報、予想されるユーザ発話(または音声コマンド)、状態遷移、応答列およびテンプレート、ローカリゼーション情報、ならびに任意の他の情報を指定してもよい。エージェント定義仕様は、1つまたは複数の言語理解分類子(用語「分類子」の定義は以下本明細書に提供される)とともに音声対応アプリケーション(たとえば、デバイスオペレーティングシステムにネイティブのデジタルパーソナルアシスタントまたはサードパーティの音声対応アプリケーション)内に実装されてもよい。各分類子は、ドメイン、インテントおよびスロットの1つまたは複数との他にユーザ発話と関連付けられることもできる。
[0018] ユーザ発話(またはテキスト入力)がエージェント定義仕様内の具体的な発話/コマンドと一致しない事例では、エンドユーザラベリングツール(EULT)がコンピューティングデバイスで使用されて、ユーザがドメイン、ドメインに対するインテント、および/またはインテントのための1つもしくは複数のスロットの1つまたは複数を選択することを可能にしてもよい。ドメインが利用不可能である事例では、ユーザはドメインを追加してもよく、任意選択により、そのドメインに対するインテントおよび/またはスロットを指定してもよい。ユーザ発話を選択されたドメイン、インテントおよび/またはスロットと関連付けることによって、ラベル付きデータセットを作成することができる。選択されたインテント(および/またはドメインもしくはスロット)と関連付けられる分類子は次いで、ラベル付きデータセットを使用して更新されてもよい。分類子に対する更新は、ある数のユーザが実質的に同様のユーザ選択をした(すなわち、同じまたは同様のドメイン、インテントおよび/またはスロットを要求した)後にのみトリガされて、分類子の不正な操作および更新を回避してもよい。分類子に対する更新は、ローカルに(コンピューティングデバイス内で)なすことができ、更新された分類子は次いで、それが他のユーザによって使用することができるクラウドデータベースに記憶させることができる。代替的に、ユーザ選択情報は、十分な数のユーザが同じ(または同様の)発話およびユーザ選択を行った後にラベル付きデータセットが作成され、分類子を更新することができるサーバコンピュータ(クラウドサーバ)に送られてもよい。
[0019] 本文書では、様々な方法、処理および手順が詳述される。特定のステップが一定の順序で記載されることがあるが、そのような順序は主に便宜および明瞭さのためである。特定のステップが2回以上繰り返されてもよく、他のステップ前または後に起こってもよく(たとえそれらのステップが別の順序で別途記載されるとしても)、他のステップと並列に起こってもよい。第2のステップが開始される前に第1のステップが完了されなければならないときにのみ、第2のステップは、第1のステップに続くことが必要とされる。そのような状況は、文脈から明白でないときに具体的に指摘されるであろう。特定のステップが省略されてもよく、その省略が別のステップに著しく影響を与えるであろうときにのみ、特定のステップは必要とされる。
[0020] 本文書では、用語「および」、「または」ならびに「および/または」が使用される。そのような用語は、同じ意味を有すると、すなわち包括的に解釈されるものとする。たとえば、「AおよびB」は、少なくとも「AもBも」、「Aのみ」、「Bのみ」、「少なくともAもBも」を意味してもよい。別の例として、「AまたはB」は、少なくとも「Aのみ」、「Bのみ」、「AもBも」、「少なくともAもBも」を意味してもよい。排他的論理和が意図されるとき、そのようなものは具体的に記されるであろう(たとえば、AかBか、AとBの多くとも1つ)。
[0021] 本文書では、様々なコンピュータ実装方法、処理および手順が記載される。たとえアクションがユーザによって許可、開始もしくはトリガされてもよいとしても、またはたとえハードウェアデバイスがコンピュータプログラム、ソフトウェア、ファームウェアなどによって制御されるとしても、様々なアクション(受信、記憶、送信、通信、表示することなど)がハードウェアデバイスによって行われることが理解されるものとする。さらに、たとえデータが概念または現実の物体を表してもよいとしても、ハードウェアデバイスがデータに作用していることが理解されるものとし、したがって「データ」それ自体としての明示的なラベリングは省略される。たとえば、ハードウェアデバイスが「記録を記憶する」と記載されるとき、ハードウェアデバイスが記録を表すデータを記憶していることが理解されるものとする。
[0022] 本明細書で使用される場合、用語「エージェント」または「反応エージェント」は、デバイス機能と関連付けられる1つまたは複数の応答対話(たとえば、音声、テキストおよび/または触覚応答)を実装するためにデジタルパーソナルアシスタントによって使用されてもよいデータ/コマンド構造を指す。デバイス機能(たとえば、電子メーリング、メッセージングなど)は、デジタルパーソナルアシスタントへのユーザ入力(たとえば、音声コマンド)によって起動されてもよい。反応エージェント(またはエージェント)は、音声エージェント定義(VAD)、音声コマンド定義(VCD)または反応エージェント定義(RAD)XML文書(または別の種類のコンピュータ可読文書)の他に、対話を通じてエージェントを駆動するために使用されるプログラミングコード(たとえば、C++コード)を使用して定義することができる。たとえば、新たな電子メールウィンドウを開き、音声入力に基づいて電子メールを作文し、デジタルパーソナルアシスタントへの音声入力によって指定される電子メールアドレスに電子メールを送るために、ユーザタスク(たとえば、音声コマンド)に基づいて、電子メール反応エージェントが使用されてもよい。反応エージェントは、ユーザ入力に基づいてデジタルパーソナルアシスタントで開始される対話セッション中に1つまたは複数の応答(たとえば、オーディオ/ビデオ/触覚応答)を提供するためにも使用されてもよい。
[0023] 本明細書で使用される場合、用語「XMLスキーマ」は、XML環境でデータを記載および確認するために使用されるXMLコードセグメントの集合をもつ文書を指す。より詳細には、XMLスキーマは、各要素がどこで許容されるか、どんな種類のコンテンツが許容されるかなど、XML文書でコンテンツを記載するために使用される要素および属性を掲げてもよい。ユーザは、XMLスキーマを準拠する、(たとえば、反応エージェント定義に使用するための)XMLファイルを生成してもよい。
[0024] 本明細書で使用される場合、用語「ドメイン」は、個人の認識の領域または範囲を示すために使用されてもよく、コンピューティングデバイスによって行われる一分類の機能と関連付けられてもよい。ドメイン例は、電子メール(たとえば、電子メールを生成して/送るために、電子メールエージェントがデジタルパーソナルアシスタント(DPA)によって使用することができる)、メッセージ(たとえば、テキストメッセージを生成して/送るために、メッセージエージェントがDPAによって使用することができる)、アラーム(アラームを設定/削除/修正するために、アラーム反応エージェントが使用することができる)などを含む。
[0025] 本明細書で使用される場合、用語「インテント」は、特定されるドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションを示すために使用されてもよい。たとえば、「アラームを設定」インテントがアラームドメインに対して使用されてもよい。
[0026] 本明細書で使用される場合、用語「スロット」は、所与のドメイン−インテントペアのための具体的なアクションを完了するために使用される具体的な値または一組の値を示すために使用されてもよい。スロットは、1つまたは複数のインテントに関連付けられてもよく、XMLスキーマテンプレートで明示的に提供(すなわち、注釈)されてもよい。典型的に、ドメイン、インテントおよび1つまたは複数のスロットが言語理解構成を作るが、しかしながら所与のエージェントシナリオ内で、スロットは、複数のインテントにわたって共有されることがあり得る。例として、ドメインが2つの異なるインテント−アラームを設定およびアラームを削除をもつアラームであれば、これらのインテントは両方とも同じ「アラーム時間」スロットを共有することがあり得る。この点では、スロットは、1つまたは複数のインテントに接続されてもよい。
[0027] 本明細書で使用される場合、用語「ユーザ選択」(エンドユーザラベリングツールと関連)は、ドメインおよび/またはインテントおよび/またはスロット情報のユーザによる選択を指す。この点では、ドメインまたはインテントまたはスロットの個別選択が可能である(たとえば、インテントのみを選択することができる)他に、任意のペアリング(たとえば、ドメイン−インテントおよびスロット無しの選択)が可能である。
[0028] 本明細書で使用される場合、用語「分類子」または「言語理解分類子」は、所与のユーザ入力(音声またはテキスト)をドメインおよびインテントにマッピングすることができる統計的、ルールベースまたは機械学習ベースのアルゴリズムまたはソフトウェア実装を指す。アルゴリズムは、分類子を使用して行われる任意の分類のための信頼スコアを出力することもあり得る。同じアルゴリズムまたは後続のソフトウェアが次いで、そのドメイン−インテントペアのための発話の一部としてユーザによって指定される一組のスロットを推論/決定することができる。所与のユーザ発話が複数の分類子を−いくつかを正の事例のためにおよび他のものを負の事例のために訓練することができる。例として、ユーザ発話(または音声/テキストコマンド)「ロブに、私は遅れているとメッセージを送る」は、「メッセージング」分類子を正のトレーニングセットとして、「電子メール」分類子を負のトレーニングセットとして訓練するために使用されることがあり得る。分類子は、ラベル付きデータ(たとえば、ユーザ発話、ドメイン、インテントおよび/またはスロット)の1つまたは複数の部分と関連付けることができる。
[0029] 図1は、本開示の例示的な実施形態による、言語理解分類子モデルを更新するためのアーキテクチャ例(100)を例示するブロック図である。図1を参照すると、クライアントコンピューティングデバイス(たとえば、図8におけるデバイス800などのスマートフォンまたは他のモバイルコンピューティングデバイス)が、アーキテクチャ100に従って編成されて言語理解分類子モデルの更新を提供するソフトウェアを実行することができる。
[0030] アーキテクチャ100は、ネットワーク130を介してリモートサーバコンピュータ(または複数のコンピュータ)140に結合されたコンピューティングデバイス102(たとえば、電話、タブレット、ラップトップ、デスクトップまたは別の種類のコンピューティングデバイス)を含む。コンピューティングデバイス102は、音を電気信号に変換するためのマイクロホン106を含む。マイクロホン106は、それぞれ電磁誘導、容量変化または圧電気を使用して気圧変動から電気信号を発生するダイナミック、コンデンサまたは圧電マイクロホンであることができる。マイクロホン106は、増幅器、1つもしくは複数のアナログもしくはデジタルフィルタ、および/またはアナログデジタル変換器を含んでデジタル音入力を発生することができる。デジタル音入力は、ユーザがデジタルパーソナルアシスタント110にタスクを行うよう命じているときなどの、ユーザの声の複製を含むことができる。
[0031] デジタルパーソナルアシスタント110は、コンピューティングデバイス102上で動作し、コンピューティングデバイス102のユーザが音声(またはテキスト)入力を使用して様々なアクションを行うようにする。デジタルパーソナルアシスタント110は、自然言語処理モジュール112、エージェント定義構造114、ユーザインタフェース116、言語理解分類子モデル(LUCM)120およびエンドユーザラベリングツール(EULT)118を備えることができる。デジタルパーソナルアシスタント110は、マイクロホン106を介してユーザ音声入力を受け、エージェント定義構造114(たとえば、音声コマンドデータ構造または反応エージェント定義構造)を使用してユーザ音声入力から対応するタスク(たとえば、音声コマンド)を決定し、タスク(たとえば、音声コマンド)を行うことができる。いくつかの状況では、デジタルパーソナルアシスタント110は、ユーザ(音声またはテキスト)コマンドをサードパーティ音声対応アプリケーション108の1つに送る。他の状況では、デジタルパーソナルアシスタント110はタスク自体を扱う。
[0032] デバイスオペレーティングシステム(OS)104が、デバイス102のためのユーザ入力機能、出力機能、記憶アクセス機能、ネットワーク通信機能および他の機能を管理する。デバイスOS104は、デジタルパーソナルアシスタント110にそのような機能へのアクセスを提供する。
[0033] エージェント定義構造114は、DPA110の1つまたは複数のエージェントを定義することができ、関連した音声コマンドバリエーションおよび音声コマンド例とともにDPA110および/またはサードパーティ音声対応アプリケーション108によってサポートされるタスクまたはコマンド(たとえば、音声コマンド)を指定することができる。いくつかの実装では、エージェント定義構造114はXML形式で実装される。追加的に、エージェント定義構造114は、(たとえば、リモートアプリケーションおよび/またはリモートサービスのための能力を定義する、リモートサーバコンピュータ140から利用可能なスキーム定義にアクセスすることによって)アプリストア146からリモートで利用可能な音声対応アプリケーションおよび/またはウェブサービス148からリモートで利用可能な音声対応サービスを特定することができる。
[0034] エージェント定義構造114は、言語理解分類子モデル(LUCM)120とともに提供することができる(たとえば、オペレーティングシステム104の一部として、またはDPA110がインストールされるときにインストールすることができる)。LUCM120は複数の分類子C1、...、Cnを含むことができ、ここで各分類子は、ドメイン(D1、...、Dn)、インテント(I1、...、In)および/またはスロット(S1、...、Sn)の1つまたは複数と関連付けることができる。分類子の各々は、所与のユーザ入力(音声またはテキスト)をドメインおよびインテントにマッピングすることができる統計的、ルールベースまたは機械学習ベースのアルゴリズムまたはソフトウェア実装を含むことができる。アルゴリズムは、分類子を使用して行われる任意の分類のための信頼スコアを出力することもあり得る。いくつかの実装では、分類子は、ドメイン、インテントおよび/またはスロット情報の1つまたは複数と関連付けることができ、所与のユーザ音声/テキスト入力に適用されるとき、信頼スコアを提供してもよい(実装シナリオ例が図2に関連して記載される)。
[0035] たとえLUCM120がエージェント定義構造114とともにDPA110の一部であるとして例示されるとしても、本開示はこの点では限定されない。いくつかの実施形態において、LUCM120は分類子モデルのローカルコピーでもよく、それはエージェント定義構造114およびDPA110に関連する分類子(C1、...、Cn)を含む。別の(たとえば、グローバルな)分類子モデル(たとえば、LUCM170)は、(たとえば、サーバコンピュータ140の一部として)クラウドに記憶されてもよい。グローバルLUCM170は、(たとえば、関連する)分類子のサブセットがエージェント定義構造に含まれ、アプリ(たとえば、サードパーティアプリ108、DPA110および/またはOS104)の一部として実装することができるように、そのような定義構造が作成されるときに使用されてもよい。
[0036] DPA110は、自然言語処理モジュール112を使用してユーザ音声入力を処理することができる。自然言語処理モジュール112は、デジタル音入力を受け、音声認識を使用してユーザによって話される語をテキストに翻訳することができる。抽出されたテキストは、意味的に解析されてタスク(たとえば、ユーザ音声コマンド)を決定することができる。デジタル音入力を解析し、口頭コマンドに応じてアクションをとることによって、デジタルパーソナルアシスタント110は、ユーザの音声入力によって制御することができる。たとえば、デジタルパーソナルアシスタント110は、抽出されたテキストを(たとえば、エージェント定義構造114に記憶される)可能性があるユーザコマンドのリストと比較して、ユーザの意図と最も一致しそうなコマンドを決定することができる。DPA110はまた、LUCM120からの分類子の1つまたは複数を適用して信頼スコアを決定し、信頼スコアに基づいて分類子を選択し、分類子と関連付けられるコマンド(または発話)に基づいてユーザの意図と最も一致しそうなコマンドを決定してもよい。この点では、一致は、統計的もしくは確率的手法、決定木もしくは他の規則、他の適切なマッチング基準、またはその組合せに基づくことができる。可能性があるユーザコマンドは、DPA110のネイティブのコマンドおよび/またはエージェント定義構造114に定義されるコマンドであることができる。したがって、エージェント定義構造114におけるコマンドおよびLUCM120内の分類子を定義することによって、DPA110によってユーザに代わって行うことができるタスクの範囲を拡大することができる。可能性があるコマンドは、サードパーティ音声対応アプリケーション108のタスクを行うための音声コマンドも含むことができる。
[0037] デジタルパーソナルアシスタント110は、音声および/またはグラフィカルユーザインタフェース116を含む。ユーザインタフェース116は、DPA110の能力(たとえば、EULT118の能力)および/またはサードパーティ音声対応アプリケーション108を説明する情報をユーザに提供することができる。
[0038] エンドユーザラベリングツール(EULT)118は、適切な論理、回路網、インタフェースおよび/またはコードを備えてもよく、本明細書に記載されるように、言語理解分類子モデルを更新するための機能を提供するように動作可能でもよい。たとえば、エージェント定義構造114がユーザの音声/テキストコマンドと一致する音声コマンド列を有しない、または利用可能な分類子の1つまたは複数が(図2に見られるように)閾値量を下回る信頼スコアを返す事例で、EULT118がトリガされてもよい。ユーザは次いで、EULT118を使用して、ドメイン、インテントおよび/またはスロットを選択し、タスク(たとえば、発話として表現される音声コマンド)またはテキストコマンドをユーザ選択されたドメイン、インテントおよび/またはスロット情報と関連付けてもよい。ユーザ選択およびユーザ入力された音声/テキストコマンドは、サーバコンピュータ140に送られてもよく、そこでグローバル分類子セット170が更新されてもよい(たとえば、ユーザ音声/テキストコマンドと一致する分類子が、ユーザ入力されたドメイン、インテントおよび/またはスロットで更新される)。この場合、クラウドソーシング手法を使用して、分類子を訓練/ラベル付けすることができ、これにより、グローバルおよびローカルLUCM(170および120)を向上させることができる。
[0039] デジタルパーソナルアシスタント110は、リモートサーバコンピュータ140上で実行するリモートサービス142にアクセスすることができる。リモートサービス142は、ネットワーク130などのネットワーク上のネットワークアドレスで提供されるソフトウェア機能を含むことができる。ネットワーク130は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、イントラネット、有線ネットワーク、無線ネットワーク、セルラネットワーク、その組合せ、またはコンピューティングデバイス102とリモートサーバコンピュータ140との間の通信のためのチャネルを提供するのに適する任意のネットワークを含むことができる。図1に例示されるネットワークトポロジが単純化されていること、ならびに複数のネットワークおよびネットワーキングデバイスは、本明細書に開示される様々なコンピューティングシステムを相互接続するために活用することができることを理解されたい。
[0040] リモートサービス142は、ネットワーク130を介してリモートサーバコンピュータ140からアクセス可能である様々なコンピューティングサービスを含むことができる。リモートサービス142は、(たとえば、モジュール112の自然言語処理機能を行う、または支援するためにデジタルパーソナルアシスタント110によって呼び出される)自然言語処理サービス144を含むことができる。リモートサービス142は、アプリストア146(たとえば、検索またはダウンロードおよびインストールすることができる音声対応アプリケーションを提供するアプリストア)を含むことができる。リモートサービス142は、デジタルパーソナルアシスタント110を使用して音声入力を介してアクセスを受け取ることができるウェブサービス148も含むことができる。リモートサービス142は、以下本明細書に説明されるように、開発者ラベリングツール150、分類子モデル訓練サービス152および分類子モデル不正検出サービス154も含むことができる。リモートサーバコンピュータ140は、発話データベース160およびラベル付きデータデータベース162を管理することもできる。
[0041] 図2は、本開示の例示的な実施形態による、音声対応アプリケーションによる言語理解分類子の様々な使用を例示するブロック図200である。図1〜2を参照すると、ユーザ(たとえば、デバイス102のユーザ)は音声入力202を入力してもよい。音声認識ブロック206(たとえば、112)は、入力202の音声をユーザコマンド(テキスト)208に変換してもよい。ユーザコマンド208は、代替的に、テキスト入力204として入力されてもよい。ブロック210で、ユーザコマンド208をエージェント定義構造(たとえば、114)に指定される1つまたは複数のユーザコマンドと突き合わせることによって、エージェント定義マッチングが行われてもよい。(212で)直接一致があれば、ドメイン216、インテント218および/またはスロット220が一致したユーザコマンドから推論されてもよく、そのような情報は、ブロック232でDPA110および/またはアプリ108によって使用されてもよい。しかしながら、(214で)全く一致がなければ、LUCM120(または170)を使用するマッチングが行うことができる。
[0042] より詳細には、ユーザコマンド208は、分類子C1、...、Cnへの入力として使用されてもよく、対応する信頼スコア240が計算されてもよい。所与の分類子(たとえば、C1)について信頼スコアが閾値(たとえば、20%)以上であれば、分類子は、そのような分類子と関連付けられるドメイン224、インテント226および/またはスロット228を抽出するために使用することができる。抽出されたドメイン/インテント/スロットは、(230で)DPA110またはアプリ108によって使用することができる。しかしながら、(たとえば、250で)信頼スコアが閾値より低ければ、分類子モデルは(たとえばEULT118を使用して、図3B〜4Bに見られるように)更新することができる。EULTラベリング処理中に決定されるドメイン、インテントおよび/またはスロットは、(232で)DPA110および/またはアプリ108によって使用することができる。
[0043] たとえEULTを使用してユーザ選択を得るかどうかを決定するために、分類子によって生成される信頼スコアが(閾値とともに)使用されるとしても、本開示はこの点では限定していない。別の実装では、EULTを使用してドメイン、インテントおよび/またはスロット情報の少なくとも1つのユーザ選択を受け取るかどうかを決定するために、(たとえば、閾値を使用する代わりに)他の方法が使用されてもよい。
[0044] 図3A〜3Bは、本開示の例示的な実施形態による、言語理解分類子モデルを更新するための処理サイクル例を例示する。図3Aを参照すると、開発者ラベリングツール150を使用して分類子データを訓練/更新するためのアーキテクチャ300が例示される。図3Aに見られるように、エージェント定義構造114は、LUCM120とまとめられてもよい(LUCM120はLUCM170と同じ、またはそのサブセットであることができる)。エージェント定義構造114およびLUCM120は次いで、(たとえば、アプリストア146で利用可能なような)アプリ108またはDPA110の一部として実装することができる。アプリ108(およびDPA110)は次いで、デバイス102にインストールされてもよい。
[0045] EULT118が無効にされる事例では、ユーザは発話302(たとえば、ユーザコマンド)を提供してもよい。発話は、発話データベース160の一部として通信および記憶されてもよく、それは、サーバコンピュータ140に通信可能に結合された他のコンピューティングデバイスのユーザからの発話も記憶してもよい。ネットワーク管理者/開発者は次いで、開発者ラベリングツール150を使用して、データベース160から発話(たとえば、302)を検索し、ドメイン、インテントおよび/またはスロット選択303を生成してもよい。管理者選択303は、発話302とまとめられ、ラベル付きデータデータベース162内にラベル付きデータとして記憶させることができる。管理者は次いで、ラベル付きデータを分類子訓練サービス152に渡してもよい(またはラベル付きデータは、データベース162に記憶されると、自動的に訓練サービス152に通信されてもよい)。
[0046] 分類子モデル訓練サービス152は、適切な論理、回路網、インタフェースおよび/またはコードを備えてもよく、LUCM120および/または170内の1つまたは複数の分類子の訓練(または更新)を行うように動作可能でもよい。分類子訓練例304中に、ラベル付きデータセットを検索することができ(たとえば、302および303);ドメイン、インテントおよび/またはスロット情報(たとえば、303)が(たとえば、インデックスとして)使用されて、LUCM120/170にアクセスし、そのようなドメイン、インテントおよび/またはスロットと関連付けられる分類子を検索することができる。訓練サービス152は次いで、ユーザ発話/コマンド(302)の他に、開発者ラベリングツール150を使用して管理者によって提供されるドメイン、インテントおよび/またはスロット(303)の1つまたは複数と分類子が関連付けられるように、それを更新することができる。更新されたLUCM120は次いで、アプリでの実装のために使用され、エージェント定義構造とまとめることができる。
[0047] 図3Bを参照すると、エンドユーザラベリングツール(EULT)118を使用して分類子データを訓練/更新するためのアーキテクチャ370が例示される。図3Bに見られるように、エージェント定義構造114は、LUCM120とまとめられてもよい(LUCM120はLUCM170と同じ、またはそのサブセットであることができる)。エージェント定義構造114およびLUCM120は次いで、(たとえば、アプリストア146で利用可能なような)アプリ108、DPA110、および/またはアプリ350、...、360の一部として実装することができる。アプリ108、350、...、360(およびDPA110)は次いで、デバイス102にインストールされてもよい。
[0048] EULT118が有効にされる事例では、ユーザは発話302(たとえば、ユーザコマンド)を提供してもよい。発話は、発話データベース160の一部として通信および記憶されてもよく、それは、サーバコンピュータ140に通信可能に結合された他のコンピューティングデバイスのユーザからの発話も記憶してもよい。デバイス102のユーザは次いで、EULT118を使用してユーザ入力を提供し、発話/コマンド302と関連付けられるドメイン、インテントおよび/またはスロットの1つまたは複数を選択してもよい(これは、エージェント定義構造114内のコマンドとの直接一致(たとえば、212)が全くないこと、および閾値(たとえば、240)を越える信頼スコアが全くないことを前提としている)。
[0049] ユーザはEULT118を使用して、発話302と関連付けられるドメイン、インテントおよび/またはスロット(たとえば、320)を選択してもよい。DPA110(またはそうでなければデバイス102)は、LUCM120内の分類子C1、...、Cnの少なくとも1つを、入力されたユーザ選択320と一致するとして選択してもよい(たとえば、分類子と関連付けられるドメイン、インテントおよび/またはスロット情報を、EULT118を介して入力されたユーザ選択320のドメイン、インテントおよび/またはスロット情報と突き合わせることに基づいて、LUCM120から分類子が選択されてもよい)。
[0050] 本開示の例示的な実施形態による、一致する分類子がLUCM120から検索された後に、デバイス102は、(たとえば、304に関して上記で論じたように)分類子を更新し、更新/訓練された分類子をローカル分類子330として記憶してもよい。分類子の訓練および更新ならびにローカル分類子330を生成することは、リモートサーバコンピュータ140の分類子モデル訓練サービス152を使用することによって行うことができる。この点では、グローバルLUCM170にそのような訓練された分類子が存在することなしで、1つまたは複数のローカル分類子330が生成されてもよい。ローカル分類子330は、ユーザプロファイル340と関連付けられてもよく、デバイス102上にインストールされるアプリ350、...、360の1つまたは複数間で使用/共有されてもよい。任意選択により、ローカル分類子330は、ユーザプロファイル340の一部としてサーバコンピュータ140に記憶されてもよい(プロファイルも、他のプロファイル/ユーザアカウント情報とともにサーバコンピュータ140に記憶されてもよい)。
[0051] DPA110はまた、発話302とともにユーザ選択されたドメイン、インテントおよび/またはスロット情報320を、ラベル付きデータデータベース162内にラベル付きデータとして記憶するために通信してもよい。ラベル付きデータは次いで、訓練のために分類子訓練サービス152に渡されてもよい。本開示の例示的な実施形態による、分類子モデル不正検出サービス154が訓練サービス152と関連して使用されてもよい。より詳細には、不正検出サービス154は、適切な論理、回路網、インタフェースおよび/またはコードを備えてもよく、一定の最小数(閾値)のユーザが同じ(または実質的に同様の)ユーザ発話と関連付けられる分類子に同じ(または実質的に同様の)更新を要求しない限り、分類子訓練/更新を阻止するように動作可能でもよい。この点では、ユーザがタスク(たとえば、音声コマンドを表現する発話)を、システムにおけるその他の残りのユーザのほとんどがそのような発話を関連付けないドメイン、インテントおよび/またはスロットと関連付けようとする事例では、自動分類子更新が阻止され得る。
[0052] 最小数のユーザが分類子に同じまたは実質的に同様の更新を要求したならば、図3Aに関して前記のように、分類子の訓練/更新(304)は続行することができる。分類子訓練例304中に、ラベル付きデータセットを検索することができ(たとえば、302および303);ドメイン、インテントおよび/またはスロット情報(たとえば、303)が(たとえば、インデックスとして)使用されて、LUCM120/170にアクセスし、そのようなドメイン、インテントおよび/またはスロットと関連付けられる分類子を検索することができる。訓練サービス152は次いで、ユーザ発話/コマンド(302)の他に、開発者ラベリングツール150を使用して管理者によって提供されるドメイン、インテントおよび/またはスロット(303)の1つまたは複数と分類子が関連付けられるように、それを更新することができる。更新されたLUCM120は、アプリでの実装のために使用され、エージェント定義構造とまとめることができる。
[0053] 図4A〜4Bは、本開示の例示的な実施形態による使用されてもよいエンドユーザラベリングツールのユーザインタフェース例を例示する。図4Aを参照すると、402でのユーザインタフェースは、ユーザにタスク(たとえば、音声コマンド)を提供するよう促すDPA110の初期のビューを例示する。404では、ユーザは405で音声コマンドを提供する。406では、DPA110は、処理(たとえば、202〜214)を行って、エージェント定義構造114で一致するユーザコマンドまたは十分に高い信頼スコア(240)が全くないと決定する場合がある。処理は次いで、EULT118インタフェースを起動することによって(たとえば、250で)継続する。407では、DPA110は、タスク(たとえば、音声コマンド)が不確かであることをユーザに通知し、ユーザが「ラベリングツール」(EULT118)を起動することを望むかどうかを尋ねる。ユーザは次いで、ソフトウェアボタン408を押すことによってEULT118を起動する。
[0054] 図4Bを参照すると、409でのユーザインタフェースは、ユーザが自分のタスク(たとえば、音声コマンド)のための関連するドメインを選択することができるように1つまたは複数のドメインを提案する。1つまたは複数のドメインを掲げることができる(たとえば、タスク(もしくは音声コマンド)に関連する(たとえば、音声学的に同様の)1つまたは複数のドメインまたはシステムで利用可能なすべてのドメイン)。ユーザがドメインを選択した後に、ユーザインタフェース410が使用されて、選択されたドメインと関連付けられる1つまたは複数のインテントを掲げることができる。代替的に、ユーザが選べるように、すべての利用可能なインテントが掲げられてもよい。ユーザがインテントを選択した後に、ユーザインタフェース412が使用されて、選択されたインテントと関連付けられる1つまたは複数のスロットを掲げることができる。代替的に、ユーザが選べるように、すべての利用可能なスロットが掲げられてもよい。スロットを選択した後に、ドメイン、インテントおよび/またはスロット情報320は、上記のようにさらに処理されてもよい。
[0055] 図5〜7は、1つまたは複数の実施形態による、反応エージェント定義の生成を例示するフロー図である。図1〜5を参照すると、方法例500は502で開始してもよく、ここでは複数の利用可能なインテントの少なくとも1つのインテントおよび/または少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つの第1のユーザ選択(320)が、サーバコンピュータ(たとえば、140)に通信可能に結合された複数のコンピューティングデバイスの少なくとも1つのコンピューティングデバイス(たとえば、102)から受信されてもよい。少なくとも1つのインテント(ユーザ選択320におけるインテント)は、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられる。(たとえば、ユーザ選択320内の)少なくとも1つのスロットは、少なくとも1つのアクションを行うために使用される値を示す。第1のユーザ選択(320)は、少なくとも1つのコンピューティングデバイス(102)で受け取られるデジタル音声入力(たとえば、発話302)と関連付けられる。504では、第1のユーザ選択と同一である複数の後続のユーザ選択を、複数のコンピューティングデバイスの少なくとも別のコンピューティングデバイスから受信したとき、デジタル音声入力を第1のユーザ選択とペアリングすることによって、ラベル付きデータセットが生成される。たとえば、302および320がペアリングされてラベル付きデータセットを生成した後、訓練サービス152は、一定(閾)数の他のユーザが同じ(または実質的に同様の)ユーザ選択および発話を提出した後に、対応する分類子の訓練に移ってもよい。506では、分類子モデル訓練サービス152は、1つまたは複数のエージェント定義と関連付けられる(たとえば、LUCM170からの)複数の利用可能な言語理解分類子から言語理解分類子を選択してもよい。選択することは少なくとも、少なくとも1つのインテントに基づいてもよい。508では、訓練サービス152は、生成されたラベル付きデータセットに基づいて選択された言語理解分類子を更新してもよい。
[0056] 図1〜3Bおよび6を参照すると、方法例600は602で開始してもよく、ここではコンピューティングデバイス(102)のユーザからのデジタル音声入力(302)が、コンピューティングデバイス(102)の1つまたは複数のマイクロホン(106)を介して受け取られてもよい。604では、自然言語処理モジュール112は、デジタル音声入力を使用して自然言語処理を行ってユーザ音声要求を決定してもよい。
[0057] 606では、ユーザ音声要求がコンピューティングデバイス上で動作するデジタルパーソナルアシスタント(110)のエージェント定義(たとえば、114)における複数の予め定義された音声コマンドの少なくとも1つとも一致しない(たとえば、214)と決定すると、複数の利用可能なインテントのインテントおよび少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つのユーザ選択(320)が、コンピューティングデバイス(102)のエンドユーザラベリングツール(EULT)(118)のグラフィカルユーザインタフェースを使用して受け取られてもよい。インテントは、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションおよび少なくとも1つのアクションを行うために使用される値を示す少なくとも1つのスロットと関連付けられる。608では、DPA110は、ユーザ音声要求(320)およびユーザ選択(302)をペアリングすることによってラベル付きデータセットを生成してもよい。610では、DPA110(またはデバイス102)は、エージェント定義(たとえば、114)と関連付けられる複数の利用可能な言語理解分類子(たとえば、LUCM120におけるC1、...、Cn)から言語理解分類子を選択してもよい。分類子の選択は少なくとも、EULT118を使用してユーザによって選択される少なくとも1つのインテントに基づくことができる。612では、DPA110(またはデバイス102)は、生成されたラベル付きデータセットに基づいて(たとえば、ローカル分類子330を作成する、302および320に基づいて)選択された言語理解分類子を更新してもよい。
[0058] 図1〜3Bおよび7を参照すると、方法例700は702で開始してもよく、ここではコンピューティングデバイス(102)で受け取られるユーザ入力(302)に基づいて、ユーザ要求が決定されてもよい。ユーザ要求は、テキスト入力(204)および/または音声入力(202)の少なくとも1つを介して受け取ることができ、要求は、コンピューティングデバイス上で動作するデジタルパーソナルアシスタント(110)の機能に対してである。704では、DPA110(またはデバイス102)は、ユーザ要求がデジタルパーソナルアシスタント(たとえば、214)のエージェント定義(114)における複数の予め定義されたタスク(たとえば、音声コマンド)の少なくとも1つとも一致しないと決定してもよい。
[0059] 706では、DPA110(またはデバイス102)は、ユーザ要求(208)にエージェント定義と関連付けられる複数の利用可能な言語理解分類子(C1、...、Cn)を適用することによって、信頼スコア(240)を生成してもよい。708では、信頼スコアが閾値(250)より小さいと決定すると、DPA110は、複数の利用可能なインテントの少なくとも1つのインテントおよび少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つのユーザ選択(320)を、コンピューティングデバイスのエンドユーザラベリングツール(EULT)(118)のグラフィカルユーザインタフェースを使用して受け取る。少なくとも1つのインテントは、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションおよび少なくとも1つのアクションを行うために使用される値を示す少なくとも1つのスロットと関連付けられる。
[0060] 710では、DPA110(またはデバイス102)は、ユーザ音声要求(302)およびユーザ選択(320)をペアリングすることによってラベル付きデータセットを生成する。712では、DPA110(またはデバイス102)は、エージェント定義と関連付けられる複数の利用可能な言語理解分類子(LUCM120)から言語理解分類子を選択し、選択することは少なくとも、ユーザによって選択される少なくとも1つのインテントに基づく。714では、DPA110(またはデバイス102)は、(たとえば、ローカル分類子330を生成する)生成されたラベル付きデータセットを使用して選択された言語理解分類子を訓練することによって、更新された言語理解分類子を生成する。
[0061] 図8は、本明細書に記載される革新が併せて実装されてもよいモバイルコンピューティングデバイス例を例示するブロック図である。モバイルデバイス800は、各種の任意選択のハードウェアおよびソフトウェア部品を含み、全体的に802で図示される。概して、モバイルデバイスにおける部品802は、デバイスの任意の他の部品と通信することができるが、但し例示の容易さのために、すべての接続が図示されるわけではない。モバイルデバイス800は、各種のコンピューティングデバイス(たとえば、セル電話、スマートフォン、ハンドヘルドコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットデバイス、ネットブック、メディアプレーヤ、携帯情報端末(PDA)、カメラ、ビデオカメラなど)のいずれかであることができ、Wi−Fi、セルラまたは衛星ネットワークなどの1つまたは複数の移動通信ネットワーク804との無線双方向通信を許容することができる。
[0062] 例示されるモバイルデバイス800は、信号符号化、(重みを割り当てること、および検索結果などのデータを格付けすることを含む)データ処理、入出力処理、電力制御および/または他の機能のようなタスクを行うためのコントローラまたはプロセッサ810(たとえば、信号プロセッサ、マイクロプロセッサ、ASIC、または他の制御および処理論理回路網)を含む。オペレーティングシステム812は、部品802の割当ておよび使用法ならびに1つまたは複数のアプリケーションプログラム811のためのサポートを制御する。オペレーティングシステム812はエンドユーザラベリングツール813を含んでもよく、それは図1〜7に関連して記載されるEULT118の機能と同様である機能を有してもよい。
[0063] 例示されるモバイルデバイス800はメモリ820を含む。メモリ820は、非取外し式メモリ822および/または取外し式メモリ824を含むことができる。非取外し式メモリ822は、RAM、ROM、フラッシュメモリ、ハードディスクまたは他の周知のメモリ記憶技術を含むことができる。取外し式メモリ824は、グローバル移動通信システム(GSM(登録商標))通信システムで周知である、フラッシュメモリもしくは加入者識別モジュール(SIM)カード、または「スマートカード」などの他の周知のメモリ記憶技術を含むことができる。メモリ820は、オペレーティングシステム812およびアプリケーション811を動作させるためのデータおよび/またはコードを記憶するために使用することができる。データ例は、ウェブページ、テキスト、画像、サウンドファイル、ビデオデータ、または1つもしくは複数の有線もしくは無線ネットワークを介して1つもしくは複数のネットワークサーバもしくは他のデバイスに関して送信および/もしくは受信されるべき他のデータセットを含むことができる。メモリ820は、国際移動加入者識別情報(IMSI)などの加入者識別子、および国際移動機器識別子(IMEI)などの機器識別子を記憶するために使用することができる。そのような識別子は、ユーザおよび機器を識別するためにネットワークサーバに送信され得る。
[0064] モバイルデバイス800は、(たとえば、仮想キーボードまたはキーパッドに対する指タップ入力、指ジェスチャ入力またはキーストローク入力を取り込むことが可能な)タッチスクリーン832、(たとえば、音声入力を取り込むことが可能な)マイクロホン834、(たとえば、静止画像および/またはビデオ画像を取り込むことが可能な)カメラ836、物理キーボード838、ボタンおよび/またはトラックボール840などの1つまたは複数の入力デバイス830、ならびにスピーカ852およびディスプレイ854などの1つまたは複数の出力デバイス850をサポートすることができる。他の可能な出力デバイス(図示せず)は、圧電または他の触覚出力デバイスを含むことができる。いくつかのデバイスは、2つ以上の入出力機能を満たすことができる。たとえば、タッチスクリーン832およびディスプレイ854は、単一の入出力デバイスに組み合わせることができる。モバイルデバイス800は、1つまたは複数のナチュラルユーザインタフェース(NUI)を提供することができる。たとえば、オペレーティングシステム812またはアプリケーション811は、オーディオ/ビデオプレーヤなどのマルチメディア処理ソフトウェアを備えることができる。
[0065] 無線モデム860は、当該技術でよく理解されているように、1つまたは複数のアンテナ(図示せず)に結合することができ、プロセッサ810と外部デバイスとの間の双方向通信をサポートすることができる。モデム860は一般的に図示され、たとえば、移動通信ネットワーク804と長距離で通信するためのセルラモデム、ブルートゥース(登録商標)互換モデム864、あるいは外部ブルートゥース搭載デバイスまたはローカル無線データネットワークもしくはルータと短距離で通信するためのWi−Fi互換モデム862を含むことができる。無線モデム860は典型的に、単一のセルラネットワーク内の、セルラネットワーク間の、またはモバイルデバイスと公衆電話交換網(PSTN)との間のデータおよび音声通信のためのGSMネットワークなど、1つまたは複数のセルラネットワークとの通信のために構成される。
[0066] モバイルデバイスは、少なくとも1つの入出力ポート880、電源882、全地球測位システム(GPS)受信器などの衛星航法システム受信器884、加速度計、ジャイロ、もしくはデバイス800の向きおよび運動を検出するための、ジェスチャコマンドを入力として受け取るための赤外線近接センサなどのセンサ886、(アナログもしくはデジタル信号を無線で送信するための)送受信器888、ならびに/またはUSBポート、IEEE1394(FireWire)ポートおよび/もしくはRS−232ポートであることができる物理コネクタ890をさらに含むことができる。図示される部品のいずれかを除去することができ、他の部品を追加することができるので、例示される部品802は必須または包括的ではない。
[0067] モバイルデバイスは、衛星航法システム受信器884(たとえば、GPS受信器)を通じて受信される情報に基づいて、モバイルデバイスの位置を示す位置データを決定することができる。代替的に、モバイルデバイスは、別の方途でモバイルデバイスの位置を示す位置データを決定することができる。たとえば、モバイルデバイスの位置は、セルラネットワークのセルタワー間の三角測量によって決定することができる。または、モバイルデバイスの位置は、モバイルデバイスの付近のWi−Fiルータの既知の位置に基づいて決定することができる。位置データは、実装および/またはユーザ設定に応じて、毎秒または何らかの他の基準で更新することができる。位置データの出所に関係なく、モバイルデバイスは位置データを、地図航法で使用するために、地図航法ツールに提供することができる。
[0068] クライアントコンピューティングデバイスとして、モバイルデバイス800は、サーバコンピューティングデバイス(たとえば、検索サーバ、ルーティングサーバなど)に要求を送信し、サーバコンピューティングデバイスから代わりに、地図画像、距離、方向、他の地図データ、検索結果(たとえば、指定された検索範囲内のPOI検索に基づくPOI)、または他のデータを受信することができる。
[0069] モバイルデバイス800は、様々な種類のサービス(たとえば、コンピューティングサービス)がコンピューティング「クラウド」によって提供される実装環境の一部であることができる。たとえば、クラウドは、インターネットなどのネットワークを介して接続される様々な種類のユーザおよびデバイスにクラウドベースのサービスを提供する、中央に設けられても、または分散されてもよいコンピューティングデバイスの集合を備えることができる。いくつかのタスク(たとえば、ユーザ入力を処理すること、およびユーザインタフェースを提示すること)はローカルコンピューティングデバイス(たとえば、接続デバイス)で行うことができる一方で、他のタスク(たとえば、後続の処理で使用されるべきデータの記憶、データの加重、およびデータの格付)はクラウドで行うことができる。
[0070] 図8がモバイルデバイス800を例示するとはいえ、より一般に、本明細書に記載される革新は、デスクトップコンピュータ、テレビ画面、またはテレビに接続されるデバイス(たとえば、セットトップボックスまたはゲームコンソール)など、他の画面特性およびデバイスフォームファクタを有するデバイスで実装することができる。サービスは、サービスプロバイダを通じて、またはオンラインサービスの他のプロバイダを通じてクラウドによって提供することができる。追加的に、本明細書に記載される技術がオーディオストリーミングに関してもよいので、デバイス画面は必要とされないことも使用されないこともある(ビデオ再生特性をもつマルチメディアエンドポイントデバイスにオーディオ/ビデオコンテンツがストリーミングされている事例で、ディスプレイが使用されてもよい)。
[0071] 図9は、いくつかの記載される実施形態を実装することができるコンピューティングシステム例の図である。多様な汎用または専用コンピューティングシステムで革新が実装されてもよいので、コンピューティングシステム900は、使用または機能の範囲に関していかなる限定も暗示するものとは意図されない。
[0072] 図9を参照して、コンピューティングシステム900は、1つまたは複数の処理ユニット910、915およびメモリ920、925を含む。図9では、この基本構成930は破線内に含まれる。処理ユニット910、915は、コンピュータ実行可能命令を実行する。処理ユニットは、汎用中央処理装置(CPU)、特定用途向け集積回路(ASIC)におけるプロセッサ、または任意の他の種類のプロセッサであることができる。マルチプロセシングシステムでは、複数の処理ユニットがコンピュータ実行可能命令を実行して処理能力を上昇させる。たとえば、図9は、中央処理装置910の他にグラフィック処理ユニットまたはコプロセシングユニット915を図示する。有形のメモリ920、925は、揮発性メモリ(たとえば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(たとえば、ROM、EEPROM、フラッシュメモリなど)、または処理ユニットによってアクセス可能な、2つの何らかの組合せでもよい。メモリ920、925は、本明細書に記載される1つまたは複数の革新を実装するソフトウェア980を、処理ユニットによる実行に適するコンピュータ実行可能命令の形態で記憶する。
[0073] コンピューティングシステムは追加の特徴も有してもよい。たとえば、コンピューティングシステム900は、ストレージ940、1つまたは複数の入力デバイス950、1つまたは複数の出力デバイス960、および1つまたは複数の通信接続970を含む。バス、コントローラまたはネットワークなどの相互接続機構(図示せず)がコンピューティングシステム900の部品を相互接続する。典型的に、オペレーティングシステムソフトウェア(図示せず)が、コンピューティングシステム900で実行する他のソフトウェアのための動作環境を提供し、コンピューティングシステム900の部品の活動を協調させる。
[0074] 有形のストレージ940は取外し式または非取外し式でもよく、磁気ディスク、磁気テープもしくはカセット、CD−ROM、DVD、または情報を記憶するために使用することができ、コンピューティングシステム900内でアクセスを受け取ることができる任意の他の媒体を含む。ストレージ940は、本明細書に記載される1つまたは複数の革新を実装するソフトウェア980のための命令を記憶する。
[0075] 入力デバイス950は、キーボード、マウス、ペンもしくはトラックボールなどのタッチ入力デバイス、音声入力デバイス、走査デバイス、またはコンピューティングシステム900への入力を提供する別のデバイスでもよい。ビデオ符号化のために、入力デバイス950は、カメラ、ビデオカード、TVチューナカード、あるいはアナログもしくはデジタル形式のビデオ入力、またはコンピューティングシステム900にビデオサンプルを読み込むCD−ROMもしくはCD−RWを受け入れる同様のデバイスでもよい。出力デバイス960は、ディスプレイ、プリンタ、スピーカ、CDライタ、またはコンピューティングシステム900からの出力を提供する別のデバイスでもよい。
[0076] 通信接続970は、別のコンピューティングエンティティへの通信媒体を通じた通信を可能にする。通信媒体は、コンピュータ実行可能命令、オーディオもしくはビデオ入力もしくは出力、または他のデータなどの情報を変調データ信号で伝達する。変調データ信号は、その特性の1つまたは複数が信号における情報を符合化するような方式で設定または変更される信号である。限定ではなく例として、通信媒体は、電気、光学、RFまたは他のキャリアを使用することができる。
[0077] 革新は、プログラムモジュールに含まれるものなどのコンピュータ実行可能命令が対象の実プロセッサまたは仮想プロセッサ上のコンピューティングシステムで実行される一般的な文脈で記載され得る。一般に、プログラムモジュールは、特定のタスクを行うか、または特定の抽象データ型を実装するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。プログラムモジュールの機能は、様々な実施形態で所望されるように、プログラムモジュール間で組み合わせられても、または分割されてもよい。プログラムモジュールのためのコンピュータ実行可能命令は、ローカルまたは分散コンピューティングシステム内で実行されてもよい。
[0078] 用語「システム」および「デバイス」は、本明細書で交換可能に使用される。文脈が別途明示しない限り、いずれの用語もコンピューティングシステムまたはコンピューティングデバイスの種類のいかなる限定も暗示しない。概して、コンピューティングシステムまたはコンピューティングデバイスはローカルまたは分散であることができ、ソフトウェアが本明細書に記載される機能を実装しつつ、専用ハードウェアおよび/または汎用ハードウェアの任意の組合せを含むことができる。
[0079] 図10は、本明細書に記載される技術と併せて使用することができるクラウドコンピューティング環境例である。クラウドコンピューティング環境1000は、クラウドコンピューティングサービス1010を備える。クラウドコンピューティングサービス1010は、コンピュータサーバ、データ記憶リポジトリ、ネットワーキングリソースなどといった、様々な種類のクラウドコンピューティングリソースを備えることができる。クラウドコンピューティングサービス1010は、中央に設けられる(たとえば、企業または組織のデータセンタによって提供される)か、または分散される(たとえば、異なるデータセンタなどの異なる位置で設けられ、/または異なる都市もしくは国に設けられる様々なコンピューティングリソースによって提供される)ことができる。追加的に、クラウドコンピューティングサービス1010は、言語理解分類子モデルを更新することに関して本明細書に記載されるEULT118および他の機能を実装してもよい。
[0080] クラウドコンピューティングサービス1010は、コンピューティングデバイス1020、1022および1024などの様々な種類のコンピューティングデバイス(たとえば、クライアントコンピューティングデバイス)によって活用される。たとえば、コンピューティングデバイス(たとえば、1020、1022および1024)は、コンピュータ(たとえば、デスクトップまたはラップトップコンピュータ)、モバイルデバイス(たとえば、タブレットコンピュータまたはスマートフォン)、または他の種類のコンピューティングデバイスであることができる。たとえば、コンピューティングデバイス(たとえば、1020、1022および1024)は、クラウドコンピューティングサービス1010を活用して、コンピューティング動作(たとえば、データ処理、データ記憶、反応エージェント定義生成および編集など)を行うことができる。
[0081] 提示のため、詳細な記載は、「決定する」および「使用する」のような用語を使用してコンピューティングシステムにおけるコンピュータ動作を記載する。これらの用語は、コンピュータによって行われる動作に対する高レベル抽象化であり、人間によって行われる行為と混同されるべきでない。これらの用語に対応する実際のコンピュータ動作は、実装に応じて異なる。
[0082] 開示された方法のいくつかの動作が好都合な提示のために特定の、連続した順序で記載されるとはいえ、特定の順序が以下に述べる特有の言語によって必要とされない限り、この方式の記載が再配置を包含することが理解されるべきである。たとえば、連続して記載される動作は、場合によっては再配置されても、または同時に行われてもよい。その上、単純性のため、添付の図は、開示された方法が他の方法と併せて使用することができる様々な方途を図示しないことがある。
[0083] 開示された方法のいずれも、コンピュータ実行可能命令または1つもしくは複数のコンピュータ可読記憶媒体に記憶されるコンピュータプログラム製品として実装され、コンピューティングデバイス(たとえば、スマートフォンまたはコンピューティングハードウェアを含む他のモバイルデバイスを含む、任意の利用可能なコンピューティングデバイス)上で実行することができる。コンピュータ可読記憶媒体は、コンピューティング環境内でアクセスされることができる任意の利用可能な有形媒体である(たとえば、DVDもしくはCDなどの1つもしくは複数の光学媒体ディスク、(DRAMもしくはSRAMなどの)揮発性メモリ部品、または(フラッシュメモリもしくはハードドライブなどの)不揮発性メモリ部品)。例として、図9を参照しつつ、コンピュータ可読記憶媒体は、メモリ920および925ならびにストレージ940を含む。用語「コンピュータ可読記憶媒体」は信号および搬送波を含まない。加えて、用語「コンピュータ可読記憶媒体」は通信接続(たとえば、970)を含まない。
[0084] 開示された技法を実装するためのコンピュータ実行可能命令のいずれもの他に、開示した実施形態の実装中に作成および使用されるいかなるデータも、1つまたは複数のコンピュータ可読記憶媒体上に記憶させることができる。コンピュータ実行可能命令は、たとえば、専用ソフトウェアアプリケーション、またはウェブブラウザもしくは(リモートコンピューティングアプリケーションなどの)他のソフトウェアアプリケーションを介してアクセスもしくはダウンロードされるソフトウェアアプリケーションの一部であることができる。そのようなソフトウェアは、たとえば、単一のローカルコンピュータ(たとえば、任意の適切な市販のコンピュータ)上で、または1つもしくは複数のネットワークコンピュータを使用してネットワーク環境で(たとえば、インターネット、ワイドエリアネットワーク、ローカルエリアネットワーク、(クラウドコンピューティングネットワークなどの)クライアント-サーバネットワーク、もしくは他のそのようなネットワークを介して)実行することができる。
[0085] 明瞭さのため、ソフトウェアベースの実装の一定の選択された態様のみが記載される。当該技術で周知である他の詳細は省略される。たとえば、開示された技術がいかなる特定のコンピュータ言語またはプログラムにも限定されないことが理解されるべきである。たとえば、開示された技術は、C++、Java(登録商標)、Perl、JavaScript(登録商標)、Adobe Flashまたは任意の他の適切なプログラミング言語で書かれるソフトウェアによって実装することができる。同様に、開示された技術は、いかなる特定のコンピュータまたはハードウェアの種類にも限定されない。適切なコンピュータおよびハードウェアの一定の詳細は周知であり、本開示に詳細に述べられる必要がない。
[0086] さらには、(たとえば、コンピュータに開示された方法のいずれかを行わせるためのコンピュータ実行可能命令を備える)ソフトウェアベースの実施形態のいずれも、適切な通信手段を通じてアップロード、ダウンロード、またはリモートでアクセスを受け取ることができる。そのような適切な通信手段は、たとえば、インターネット、ワールドワイドウェブ、イントラネット、ソフトウェアアプリケーション、(光ファイバーケーブルを含む)ケーブル、磁気通信、(RF、マイクロ波および赤外線通信を含む)電磁通信、電子通信、または他のそのような通信手段を含む。
[0087] 開示された方法、装置およびシステムは、いかなる形であれ限定的と解釈されるべきではない。その代わり、本開示は、様々な開示した実施形態のすべての新規かつ自明でない特徴および態様の個々ならびに互いの様々な組合せおよび部分組合せを対象とする。開示された方法、装置およびシステムは、いかなる特定の態様または特徴またはその組合せにも限定されず、また開示した実施形態は、いかなる1つまたは複数の特定の利点が存在することも、または問題が解決されることも必要としない。
[0088] いかなる例からの技術も、その他の例の任意の1つまたは複数に記載される技術と組み合わせることができる。開示された技術の原理が適用されてもよい多くの可能な実施形態に鑑みて、例示された実施形態は開示された技術の例であり、開示された技術の範囲の限定としてとられるべきでないことを理解されたい。むしろ、開示された技術の範囲は、以下の請求項の範囲および趣旨によって包含されるものを含む。

Claims (15)

  1. 処理ユニットと、
    前記処理ユニットに結合されたメモリとを備え、
    言語理解分類子モデルを更新するための動作を行うように構成されたサーバコンピュータであって、前記動作が、
    前記サーバコンピュータに通信可能に結合された複数のコンピューティングデバイスの少なくとも1つのコンピューティングデバイスから、複数の利用可能なインテントの少なくとも1つのインテントおよび/または前記少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つの第1のユーザ選択を受信することであって、
    前記少なくとも1つのインテントが、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられ、
    前記少なくとも1つのスロットが、前記少なくとも1つのアクションを行うために使用される値を示し、
    前記第1のユーザ選択が、前記少なくとも1つのコンピューティングデバイスで受け取られるデジタル音声入力と関連付けられる、ことと、
    前記第1のユーザ選択と同一である複数の後続のユーザ選択を、前記複数のコンピューティングデバイスの少なくとも別のコンピューティングデバイスから受信したとき、
    前記デジタル音声入力を前記第1のユーザ選択とペアリングすることによってラベル付きデータセットを生成し、
    1つまたは複数のエージェント定義と関連付けられた複数の利用可能な言語理解分類子から言語理解分類子を選択し、前記選択することが少なくとも、前記少なくとも1つのインテントに基づき、
    前記生成されたラベル付きデータセットに基づいて前記選択された言語理解分類子を更新することとを含む、サーバコンピュータ。
  2. 前記動作が、
    前記複数の後続のユーザ選択の数を決定することと、
    前記複数の後続のユーザ選択の前記数が第1の閾値より高いとき、前記生成されたラベル付きデータセットに基づいて前記選択された言語理解分類子を自動的に更新することとをさらに含む、請求項1に記載のサーバコンピュータ。
  3. 前記動作が、
    前記少なくとも1つのコンピューティングデバイスから前記デジタル音声入力を受信することと、
    前記デジタル音声入力を使用して自然言語処理を行ってユーザ音声要求を決定することと、
    前記デジタル音声入力および前記ユーザ音声要求の一方または両方を発話データベースに記憶することと、
    前記発話データベースから前記デジタル音声入力および前記ユーザ音声要求の一方または両方を検索することと、
    前記第1のユーザ選択を前記デジタル音声入力および前記ユーザ音声要求の一方または両方とペアリングすることによって前記ラベル付きデータセットを生成することとをさらに含む、請求項1に記載のサーバコンピュータ。
  4. 前記動作が、
    前記複数の後続のユーザ選択に対応する複数の後続のデジタル音声入力を受信することであって、前記複数の後続のデジタル音声入力が、前記デジタル音声入力と実質的に同様である、ことと、
    前記第1のユーザ選択の前記少なくとも1つのインテントおよび前記少なくとも1つのスロットと異なる少なくとも1つのインテントおよび少なくとも1つのスロットを備える前記複数の後続のユーザ選択の数を決定することとをさらに含む、請求項1に記載のサーバコンピュータ。
  5. 前記動作が、
    前記複数の後続のユーザ選択の前記決定された数が第2の閾値より高いとき、前記サーバコンピュータの管理者によって前記選択された言語理解分類子の手動更新の要求を生成することと、
    手動更新の前記要求に応じて、前記第1のユーザ選択の前記少なくとも1つのインテントおよび前記少なくとも1つのスロットまたは前記複数の後続のユーザ選択の前記少なくとも1つのインテントおよび前記少なくとも1つのスロットを選択する入力を受信することと、
    前記選択された少なくとも1つのインテントおよび前記少なくとも1つのスロットに基づいて前記選択された言語理解分類子を更新する入力を受信することとをさらに含む、請求項4に記載のサーバコンピュータ。
  6. 言語理解分類子モデルを更新するための方法であって、
    コンピューティングデバイスのユーザからのデジタル音声入力を、前記コンピューティングデバイスの1つまたは複数のマイクロホンを介して受け取ることと、
    前記デジタル音声入力を使用して自然言語処理を行ってユーザ音声要求を決定することと、
    前記ユーザ音声要求が前記コンピューティングデバイス上で動作するデジタルパーソナルアシスタントのエージェント定義における複数の予め定義されたタスクの少なくとも1つとも一致しないと決定すると、
    複数の利用可能なインテントのインテントおよび前記インテントのための少なくとも1つのスロットのうちの少なくとも1つのユーザ選択を、前記コンピューティングデバイスのエンドユーザラベリングツール(EULT)のグラフィカルユーザインタフェースを使用して受け取り、
    前記インテントが、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられ、
    前記少なくとも1つのスロットが、前記少なくとも1つのアクションを行うために使用される値を示し、
    前記ユーザ音声要求および前記ユーザ選択をペアリングすることによってラベル付きデータセットを生成し、
    前記エージェント定義と関連付けられた複数の利用可能な言語理解分類子から言語理解分類子を選択し、前記選択することが少なくとも、前記ユーザによって選択された前記インテントに基づき、
    前記生成されたラベル付きデータセットに基づいて前記選択された言語理解分類子を更新することとを含む、方法。
  7. 前記エージェント定義と関連付けられた前記複数の利用可能な言語理解分類子が、前記コンピューティングデバイスでローカルストレージに記憶され、前記方法が、
    前記更新された言語理解分類子を前記コンピューティングデバイス内で前記ユーザのプロファイルと関連付けることと、
    前記更新された言語理解分類子を前記ローカルストレージに記憶することと、
    前記更新された言語理解分類子を、前記コンピューティングデバイス上で動作する前記デジタルパーソナルアシスタントと少なくとも1つのサードパーティアプリケーションとの間で共有することができる共通リソースとして指定することとをさらに含む、請求項6に記載の方法。
  8. 前記更新することが、
    以前のインテントおよび/またはスロットの少なくとも1つとの前記選択された言語理解分類子の関連を、前記ユーザ選択の前記インテントおよび/または前記少なくとも1つのスロットの少なくとも1つとの新たな関連で置き換えることを含む、請求項6に記載の方法。
  9. 前記デジタル音声入力および前記ユーザ音声要求の一方または両方との前記選択された言語理解分類子の関連を作成することをさらに含む、請求項8に記載の方法。
  10. 前記ユーザ選択が前記インテントを備え、前記方法が、
    前記インテントおよび前記ユーザ音声要求に基づいて、前記少なくとも1つのスロットを自動的に選択することをさらに含む、請求項6に記載の方法。
  11. 前記エージェント定義が、前記デジタルパーソナルアシスタントと関連付けられた音声コマンド定義(VCD)スキーマおよび反応エージェント定義(RAD)スキーマの少なくとも1つを備える、請求項6に記載の方法。
  12. コンピューティングデバイスに言語理解分類子モデルを更新するための動作を行わせるためのコンピュータ実行可能命令を記憶するコンピュータ可読記憶媒体であって、前記動作が、
    コンピューティングデバイスで受け取られるユーザ入力に基づいてユーザ要求を決定することであって、前記ユーザ要求がテキスト入力および音声入力の少なくとも1つを介して受け取られ、前記要求が前記コンピューティングデバイス上で動作するデジタルパーソナルアシスタントの機能に対してである、ことと、
    前記ユーザ要求が前記デジタルパーソナルアシスタントのエージェント定義における複数の予め定義された音声コマンドの少なくとも1つとも一致しないと決定することと、
    前記ユーザ要求に前記エージェント定義と関連付けられた複数の利用可能な言語理解分類子を適用することによって信頼スコアを生成することと、
    前記信頼スコアが閾値より小さいと決定すると、
    複数の利用可能なインテントの少なくとも1つのインテントおよび前記少なくとも1つのインテントのための少なくとも1つのスロットのうちの少なくとも1つのユーザ選択を、前記コンピューティングデバイスのエンドユーザラベリングツール(EULT)のグラフィカルユーザインタフェースを使用して受け、
    前記少なくとも1つのインテントが、ドメインに対する一分類の機能の少なくとも1つの機能を行うために使用される少なくとも1つのアクションと関連付けられ、
    前記少なくとも1つのスロットが、前記少なくとも1つのアクションを行うために使用される値を示し、
    前記ユーザ音声要求および前記ユーザ選択をペアリングすることによってラベル付きデータセットを生成し、
    前記エージェント定義と関連付けられた前記複数の利用可能な言語理解分類子から言語理解分類子を選択し、前記選択することが少なくとも、前記ユーザによって選択された前記少なくとも1つのインテントに基づき、
    前記生成されたラベル付きデータセットを使用して前記選択された言語理解分類子を訓練することによって更新された言語理解分類子を生成することとを含む、コンピュータ可読記憶媒体。
  13. 前記動作が、
    前記少なくとも1つのインテントと関連付けられた前記ドメインの選択を、前記コンピューティングデバイスの前記エンドユーザラベリングツール(EULT)の前記グラフィカルユーザインタフェースを使用して受け取ることをさらに含む、請求項12に記載のコンピュータ可読記憶媒体。
  14. 前記動作が、
    前記訓練することの間、前記選択された言語理解分類子を前記ユーザ要求、前記ユーザ選択の前記少なくとも1つのインテントおよび前記少なくとも1つのスロットと関連付けることをさらに含む、請求項12に記載のコンピュータ可読記憶媒体。
  15. 前記エージェント定義が、前記デジタルパーソナルアシスタントと関連付けられた音声コマンド定義(VCD)スキーマおよび反応エージェント定義(RAD)スキーマの少なくとも1つを備える、請求項12に記載のコンピュータ可読記憶媒体。
JP2017534655A 2015-01-30 2016-01-15 クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること Active JP6744314B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/611,042 2015-01-30
US14/611,042 US9508339B2 (en) 2015-01-30 2015-01-30 Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
PCT/US2016/013502 WO2016122902A2 (en) 2015-01-30 2016-01-15 Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing

Publications (2)

Publication Number Publication Date
JP2018513431A true JP2018513431A (ja) 2018-05-24
JP6744314B2 JP6744314B2 (ja) 2020-08-19

Family

ID=55398405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017534655A Active JP6744314B2 (ja) 2015-01-30 2016-01-15 クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること

Country Status (18)

Country Link
US (1) US9508339B2 (ja)
EP (1) EP3251115B1 (ja)
JP (1) JP6744314B2 (ja)
KR (1) KR102451437B1 (ja)
CN (1) CN107210033B (ja)
AU (1) AU2016211903B2 (ja)
BR (1) BR112017011564B1 (ja)
CA (1) CA2970728C (ja)
CL (1) CL2017001872A1 (ja)
CO (1) CO2017007032A2 (ja)
IL (1) IL252454B (ja)
MX (1) MX2017009711A (ja)
MY (1) MY188645A (ja)
NZ (1) NZ732352A (ja)
PH (1) PH12017550013A1 (ja)
RU (1) RU2699587C2 (ja)
SG (1) SG11201705873RA (ja)
WO (1) WO2016122902A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095564A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 情報処理装置

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11693622B1 (en) * 2015-09-28 2023-07-04 Amazon Technologies, Inc. Context configurable keywords
US10891549B2 (en) * 2015-12-02 2021-01-12 Gluru Limited System and method for intelligent resource ranking and retrieval
JP6523974B2 (ja) * 2016-01-05 2019-06-05 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法、および、プログラム
US10263933B2 (en) 2016-05-17 2019-04-16 Google Llc Incorporating selectable application links into message exchange threads
US10291565B2 (en) * 2016-05-17 2019-05-14 Google Llc Incorporating selectable application links into conversations with personal assistant modules
US10783178B2 (en) 2016-05-17 2020-09-22 Google Llc Generating a personal database entry for a user based on natural language user interface input of the user and generating output based on the entry in response to further natural language user interface input of the user
US10311856B2 (en) 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
US10853747B2 (en) 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
CN109804428B (zh) * 2016-10-03 2020-08-21 谷歌有限责任公司 计算代理的合成语音选择
US10437841B2 (en) 2016-10-10 2019-10-08 Microsoft Technology Licensing, Llc Digital assistant extension automatic ranking and selection
US10891152B2 (en) 2016-11-23 2021-01-12 Amazon Technologies, Inc. Back-end task fulfillment for dialog-driven applications
US10331791B2 (en) * 2016-11-23 2019-06-25 Amazon Technologies, Inc. Service for developing dialog-driven applications
US10332505B2 (en) * 2017-03-09 2019-06-25 Capital One Services, Llc Systems and methods for providing automated natural language dialogue with customers
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
US11170768B2 (en) * 2017-04-17 2021-11-09 Samsung Electronics Co., Ltd Device for performing task corresponding to user utterance
KR102389625B1 (ko) * 2017-04-30 2022-04-25 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
US10942948B2 (en) * 2017-05-02 2021-03-09 Sap Se Cloud-based pluggable classification system
US10838746B2 (en) 2017-05-18 2020-11-17 Aiqudo, Inc. Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations
US10847135B2 (en) * 2017-05-18 2020-11-24 Aiqudo, Inc. Sharing commands and command groups across digital assistant operations
US11340925B2 (en) 2017-05-18 2022-05-24 Peloton Interactive Inc. Action recipes for a crowdsourced digital assistant system
US11056105B2 (en) 2017-05-18 2021-07-06 Aiqudo, Inc Talk back from actions in applications
EP3635578A4 (en) * 2017-05-18 2021-08-25 Aiqudo, Inc. SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS
US10466963B2 (en) 2017-05-18 2019-11-05 Aiqudo, Inc. Connecting multiple mobile devices to a smart home assistant account
US11043206B2 (en) 2017-05-18 2021-06-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US10460728B2 (en) 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
EP3622392A1 (en) * 2017-08-22 2020-03-18 Google LLC Facilitating user device and/or agent device actions during a communication session
US10546023B2 (en) 2017-10-03 2020-01-28 Google Llc Providing command bundle suggestions for an automated assistant
US11410648B2 (en) 2017-10-03 2022-08-09 Google Llc Multiple digital assistant coordination in vehicular environments
US10620912B2 (en) 2017-10-25 2020-04-14 International Business Machines Corporation Machine learning to determine and execute a user interface trace
US10620911B2 (en) 2017-10-25 2020-04-14 International Business Machines Corporation Machine learning to identify a user interface trace
CN108133707B (zh) * 2017-11-30 2021-08-17 百度在线网络技术(北京)有限公司 一种内容分享方法及***
EP3519981B1 (en) * 2017-12-08 2021-07-28 Google LLC Detection of duplicate packetized data transmission
US10929613B2 (en) 2017-12-29 2021-02-23 Aiqudo, Inc. Automated document cluster merging for topic-based digital assistant interpretation
US10963495B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Automated discourse phrase discovery for generating an improved language model of a digital assistant
US10963499B2 (en) 2017-12-29 2021-03-30 Aiqudo, Inc. Generating command-specific language model discourses for digital assistant interpretation
US10176171B1 (en) * 2017-12-29 2019-01-08 Aiqudo, Inc. Language agnostic command-understanding digital assistant
US11631017B2 (en) * 2018-01-09 2023-04-18 Microsoft Technology Licensing, Llc Federated intelligent assistance
WO2019152511A1 (en) 2018-01-30 2019-08-08 Aiqudo, Inc. Personalized digital assistant device and related methods
US10636423B2 (en) * 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
US11182565B2 (en) * 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US11669746B2 (en) * 2018-04-11 2023-06-06 Samsung Electronics Co., Ltd. System and method for active machine learning
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US11715042B1 (en) 2018-04-20 2023-08-01 Meta Platforms Technologies, Llc Interpretability of deep reinforcement learning models in assistant systems
US10978056B1 (en) 2018-04-20 2021-04-13 Facebook, Inc. Grammaticality classification for natural language generation in assistant systems
EP3557504A1 (en) * 2018-04-20 2019-10-23 Facebook, Inc. Intent identification for agent matching by assistant systems
US11115410B1 (en) 2018-04-20 2021-09-07 Facebook, Inc. Secure authentication for assistant systems
US11010179B2 (en) 2018-04-20 2021-05-18 Facebook, Inc. Aggregating semantic information for improved understanding of users
US20220374460A1 (en) * 2018-04-20 2022-11-24 Meta Platforms, Inc. Assisting Users with Efficient Information Sharing among Social Connections
US10698707B2 (en) 2018-04-24 2020-06-30 Facebook, Inc. Using salience rankings of entities and tasks to aid computer interpretation of natural language input
US10498688B2 (en) * 2018-04-25 2019-12-03 International Business Machines Corporation Prioritizing notifications on a mobile communications device
US11984115B2 (en) 2018-05-07 2024-05-14 Bayerische Motoren Werke Aktiengesellschaft Dialog system capable of semantic-understanding mapping between user intents and machine services
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
US10635462B2 (en) * 2018-05-23 2020-04-28 Microsoft Technology Licensing, Llc Skill discovery for computerized personal assistant
CN110556102B (zh) * 2018-05-30 2023-09-05 蔚来(安徽)控股有限公司 意图识别和执行的方法、设备、车载语音对话***以及计算机存储介质
KR20190139489A (ko) * 2018-06-08 2019-12-18 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102611386B1 (ko) * 2018-06-27 2023-12-08 구글 엘엘씨 로컬 텍스트-응답 맵을 활용하여 사용자의 음성 발화에 대한 응답 렌더링
CN109101545A (zh) * 2018-06-29 2018-12-28 北京百度网讯科技有限公司 基于人机交互的自然语言处理方法、装置、设备和介质
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US11170770B2 (en) * 2018-08-03 2021-11-09 International Business Machines Corporation Dynamic adjustment of response thresholds in a dialogue system
EP3608906B1 (en) * 2018-08-07 2024-05-22 Samsung Electronics Co., Ltd. System for processing user voice utterance and method for operating same
US10896295B1 (en) 2018-08-21 2021-01-19 Facebook, Inc. Providing additional information for identified named-entities for assistant systems
US10949616B1 (en) 2018-08-21 2021-03-16 Facebook, Inc. Automatically detecting and storing entity information for assistant systems
KR20200052612A (ko) * 2018-11-07 2020-05-15 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
CN111276136A (zh) * 2018-12-04 2020-06-12 北京京东尚科信息技术有限公司 控制电子设备的方法、装置、***及介质
US10878805B2 (en) * 2018-12-06 2020-12-29 Microsoft Technology Licensing, Llc Expediting interaction with a digital assistant by predicting user responses
US11315590B2 (en) * 2018-12-21 2022-04-26 S&P Global Inc. Voice and graphical user interface
CN111427992A (zh) 2019-01-10 2020-07-17 华为技术有限公司 对话处理方法及设备
AU2020229706B2 (en) * 2019-02-25 2023-03-16 Liveperson, Inc. Intent-driven contact center
US11954453B2 (en) * 2019-03-12 2024-04-09 International Business Machines Corporation Natural language generation by an edge computing device
US11854535B1 (en) * 2019-03-26 2023-12-26 Amazon Technologies, Inc. Personalization for speech processing applications
CN110008325B (zh) * 2019-03-29 2020-02-07 海南中智信信息技术有限公司 一种基于商用对话***的口语语言理解及改写方法
US10802843B1 (en) 2019-05-31 2020-10-13 Apple Inc. Multi-user configuration
US11442992B1 (en) 2019-06-28 2022-09-13 Meta Platforms Technologies, Llc Conversational reasoning with knowledge graph paths for assistant systems
US11657094B2 (en) 2019-06-28 2023-05-23 Meta Platforms Technologies, Llc Memory grounded conversational reasoning and question answering for assistant systems
WO2021033889A1 (en) 2019-08-20 2021-02-25 Samsung Electronics Co., Ltd. Electronic device and method for controlling the electronic device
US11184298B2 (en) * 2019-08-28 2021-11-23 International Business Machines Corporation Methods and systems for improving chatbot intent training by correlating user feedback provided subsequent to a failed response to an initial user intent
CN110798506B (zh) * 2019-09-27 2023-03-10 华为技术有限公司 执行命令的方法、装置及设备
US11188580B2 (en) 2019-09-30 2021-11-30 Intuit, Inc. Mapping natural language utterances to nodes in a knowledge graph
US11861674B1 (en) 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems
US11567788B1 (en) 2019-10-18 2023-01-31 Meta Platforms, Inc. Generating proactive reminders for assistant systems
KR20210053072A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
CN110827831A (zh) * 2019-11-15 2020-02-21 广州洪荒智能科技有限公司 基于人机交互的语音信息处理方法、装置、设备及介质
US11158308B1 (en) * 2019-11-27 2021-10-26 Amazon Technologies, Inc. Configuring natural language system
US11574634B2 (en) 2019-11-27 2023-02-07 Google Llc Interfacing with applications via dynamically updating natural language processing
KR20220062360A (ko) * 2019-11-27 2022-05-16 구글 엘엘씨 동적으로 업데이트되는 자연어 처리를 통한 애플리케이션과의 인터페이스
US11562744B1 (en) 2020-02-13 2023-01-24 Meta Platforms Technologies, Llc Stylizing text-to-speech (TTS) voice response for assistant systems
US11159767B1 (en) 2020-04-07 2021-10-26 Facebook Technologies, Llc Proactive in-call content recommendations for assistant systems
US11658835B2 (en) 2020-06-29 2023-05-23 Meta Platforms, Inc. Using a single request for multi-person calling in assistant systems
US11550605B2 (en) * 2020-06-30 2023-01-10 Kasisto, Inc. Building and managing cohesive interaction for virtual assistants
US11817091B1 (en) 2020-09-30 2023-11-14 Amazon Technologies, Inc. Fault-tolerance techniques for dialog-driven applications
US11252149B1 (en) 2020-09-30 2022-02-15 Amazon Technologies, Inc. Resource management techniques for dialog-driven applications
US11948019B1 (en) 2020-09-30 2024-04-02 Amazon Technologies, Inc. Customized configuration of multimodal interactions for dialog-driven applications
US11563706B2 (en) 2020-12-29 2023-01-24 Meta Platforms, Inc. Generating context-aware rendering of media contents for assistant systems
US11809480B1 (en) 2020-12-31 2023-11-07 Meta Platforms, Inc. Generating dynamic knowledge graph of media contents for assistant systems
US12008048B2 (en) * 2021-01-04 2024-06-11 Oracle International Corporation Drill back to original audio clip in virtual assistant initiated lists and reminders
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
US20220353304A1 (en) * 2021-04-30 2022-11-03 Microsoft Technology Licensing, Llc Intelligent Agent For Auto-Summoning to Meetings
KR102321650B1 (ko) 2021-07-19 2021-11-04 주식회사 크라우드웍스 크라우드소싱 기반 프로젝트의 특성에 따른 머신러닝 모델의 학습 성능 개선 방법 및 장치
CN114842847A (zh) * 2022-04-27 2022-08-02 中国第一汽车股份有限公司 一种车载用语音控制方法以及装置
CN115457979A (zh) * 2022-09-22 2022-12-09 赵显阳 一种视频语音分析识别处理方法及***
KR20240069959A (ko) * 2022-11-14 2024-05-21 주식회사 솔트룩스 인공지능 기반의 대화형 질의 응답 시스템
CN115588432B (zh) * 2022-11-23 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
US11983329B1 (en) 2022-12-05 2024-05-14 Meta Platforms, Inc. Detecting head gestures using inertial measurement unit signals

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269201A (ja) * 1997-03-25 1998-10-09 Toshiba Corp 辞書流通方法および辞書流通システム
JP2005275446A (ja) * 2004-03-22 2005-10-06 Nec Corp 辞書情報の自動更新システムおよび方法、辞書管理サーバ、並びに辞書管理プログラム
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
CN101572084A (zh) * 2008-04-29 2009-11-04 环达电脑(上海)有限公司 智能语音***及方法
JP2014102280A (ja) * 2012-11-16 2014-06-05 Ntt Docomo Inc 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2014204659A2 (en) * 2013-06-21 2014-12-24 Microsoft Corporation Building conversational understanding systems using a toolset

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
DE60040015D1 (de) * 1999-12-20 2008-10-02 British Telecomm Das lernen von dialogzuständen und sprachmodellen des gesprochenen informationssystems
US20020198714A1 (en) * 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
AU2003900584A0 (en) 2003-02-11 2003-02-27 Telstra New Wave Pty Ltd System for predicting speech recognition accuracy and development for a dialog system
US7761858B2 (en) * 2004-04-23 2010-07-20 Microsoft Corporation Semantic programming language
WO2006040971A1 (ja) * 2004-10-08 2006-04-20 Matsushita Electric Industrial Co., Ltd. 対話支援装置
CN1889172A (zh) * 2005-06-28 2007-01-03 松下电器产业株式会社 可增加和修正声音类别的声音分类***及方法
EP1760610A1 (en) 2005-08-31 2007-03-07 France Telecom Method for managing shared data and related device
US8677377B2 (en) * 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7835911B2 (en) 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
JP4181590B2 (ja) 2006-08-30 2008-11-19 株式会社東芝 インタフェース装置及びインタフェース処理方法
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8190627B2 (en) * 2007-06-28 2012-05-29 Microsoft Corporation Machine assisted query formulation
US8255225B2 (en) * 2008-08-07 2012-08-28 Vocollect Healthcare Systems, Inc. Voice assistant system
US8352386B2 (en) * 2009-07-02 2013-01-08 International Business Machines Corporation Identifying training documents for a content classifier
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和***
US8694537B2 (en) 2010-07-29 2014-04-08 Soundhound, Inc. Systems and methods for enabling natural language processing
US8606575B1 (en) * 2011-09-06 2013-12-10 West Corporation Method and apparatus of providing semi-automated classifier adaptation for natural language processing
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US8959425B2 (en) * 2011-12-09 2015-02-17 Microsoft Corporation Inference-based extension activation
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和***
US8892419B2 (en) 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US9875237B2 (en) 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9772994B2 (en) 2013-07-25 2017-09-26 Intel Corporation Self-learning statistical natural language processing for automatic production of virtual personal assistants
US9189742B2 (en) * 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269201A (ja) * 1997-03-25 1998-10-09 Toshiba Corp 辞書流通方法および辞書流通システム
JP2005275446A (ja) * 2004-03-22 2005-10-06 Nec Corp 辞書情報の自動更新システムおよび方法、辞書管理サーバ、並びに辞書管理プログラム
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
CN101572084A (zh) * 2008-04-29 2009-11-04 环达电脑(上海)有限公司 智能语音***及方法
JP2014102280A (ja) * 2012-11-16 2014-06-05 Ntt Docomo Inc 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2014204659A2 (en) * 2013-06-21 2014-12-24 Microsoft Corporation Building conversational understanding systems using a toolset

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021095564A1 (ja) * 2019-11-13 2021-05-20 ソニーグループ株式会社 情報処理装置

Also Published As

Publication number Publication date
US20160225370A1 (en) 2016-08-04
WO2016122902A3 (en) 2016-10-27
WO2016122902A2 (en) 2016-08-04
EP3251115A2 (en) 2017-12-06
EP3251115B1 (en) 2018-12-12
SG11201705873RA (en) 2017-08-30
AU2016211903A1 (en) 2017-06-15
AU2016211903B2 (en) 2020-07-09
KR20170115501A (ko) 2017-10-17
CL2017001872A1 (es) 2018-02-09
RU2699587C2 (ru) 2019-09-06
US9508339B2 (en) 2016-11-29
PH12017550013A1 (en) 2017-10-18
MY188645A (en) 2021-12-22
IL252454A0 (en) 2017-07-31
CN107210033A (zh) 2017-09-26
RU2017127107A3 (ja) 2019-07-17
KR102451437B1 (ko) 2022-10-05
JP6744314B2 (ja) 2020-08-19
CO2017007032A2 (es) 2017-09-29
NZ732352A (en) 2022-10-28
CA2970728A1 (en) 2016-08-04
RU2017127107A (ru) 2019-01-28
IL252454B (en) 2020-02-27
BR112017011564A2 (pt) 2018-01-02
BR112017011564B1 (pt) 2023-03-07
CN107210033B (zh) 2020-10-16
MX2017009711A (es) 2017-11-17
CA2970728C (en) 2022-02-22

Similar Documents

Publication Publication Date Title
JP6744314B2 (ja) クラウドソーシングに基づいてデジタルパーソナルアシスタントのための言語理解分類子モデルを更新すること
CN107111516B (zh) 数字个人助理内的无头任务完成
CN107112015B (zh) 发现第三方启用语音的资源的能力
US9959863B2 (en) Keyword detection using speaker-independent keyword models for user-designated keywords
US20160202957A1 (en) Reactive agent development environment
US9786296B2 (en) Method and apparatus for assigning keyword model to voice operated function

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20170825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200730

R150 Certificate of patent or registration of utility model

Ref document number: 6744314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250