JP2008506156A - マルチスロット対話システムおよび方法 - Google Patents
マルチスロット対話システムおよび方法 Download PDFInfo
- Publication number
- JP2008506156A JP2008506156A JP2007520443A JP2007520443A JP2008506156A JP 2008506156 A JP2008506156 A JP 2008506156A JP 2007520443 A JP2007520443 A JP 2007520443A JP 2007520443 A JP2007520443 A JP 2007520443A JP 2008506156 A JP2008506156 A JP 2008506156A
- Authority
- JP
- Japan
- Prior art keywords
- slot
- user
- correction
- segment
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000004044 response Effects 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000012790 confirmation Methods 0.000 claims description 90
- 238000012937 correction Methods 0.000 claims description 48
- 238000005352 clarification Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 15
- 230000003213 activating effect Effects 0.000 claims 2
- 230000004913 activation Effects 0.000 claims 1
- 238000012423 maintenance Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 10
- 230000002452 interceptive effect Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000011161 development Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012508 change request Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Circuits Of Receivers In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
コンポーネントベースの手法を使用して、特定の目的またはトピック(マルチスロット対話)を達成することを目的として複数の関連する情報を集めるための、ユーザとの一連の双方向交流を構築するシステムおよび方法が開示される。本方法は、一般的には、セグメントのスロットに対する値をユーザから引き出すために一次ヘッダプロンプトを出力すること、セグメントのスロットの少なくともサブセットの各スロットに対する値を含む一次ユーザ応答を受け取ること、一次ユーザ応答を処理し一次ユーザ応答に含まれる各スロットに対する少なくとも1つの候補認識値を決定すること、一次ユーザ応答に含まれる各スロットに対応する候補認識値から選択される合致値を入力すること、および、スロットセグメントのすべてのスロットが入力されるまで、セグメントの入力されていないスロットに対して、上記のステップを繰り返すことを含む。
Description
本発明は、概して音声認識システムに関する。より具体的には、コンポーネントベースの手法を使用して、特定の目的またはトピック(マルチスロット対話(dialog))を達成することを目的として複数の関連する情報を集めるための、ユーザとの一連の双方向交流(interaction)を構築するシステムおよび方法が開示される。
音声認識システムは、ユーザ側の対応を大幅に変更する必要なしにサービス機能を自動化する有望な方法である。多くの会社は、従来は担当者が行っていた業務を音声認識技術を使用して自動化することにより、カスタマーサービス機能を拡張あるいは改良することを模索してきた。これを達成するためには、音声認識システムは、ユーザが自然な会話形式の発話入力を使用して、情報の要求および提供を行うことができるものである必要がある。最近、音声認識技術の特定の領域が進歩し、有用な音声認識システムを構築するうえでの従来の障害のいくつかが容易に解決されるようになった。例えば、技術の進歩により、実際の幅広い動作条件(背景ノイズや電話回線の不完全な品質など)の下で、リハーサルされてない発話入力を復号化できるようになった。さらには、最近の進歩により、音声アプリケーションは、アクセントや発話様式の異なる広範な人口のユーザの音声入力を認識できるようになった。
適切に構築されている音声システムであれば、顧客の受容度も高くなる。残念ながら、過去の手法を使用して効果的な音声システムを構築することは依然として難しい。
最も初期の手法では、音声認識エンジンのアプリケーションプログラムインタフェース(API)を使用して、プログラムする必要があった。この手法は、開発者に低レベルの、認識エンジンに固有な細部(例外処理やリソース管理など)の負担を負わせた。さらに、これらのAPIは特定の認識エンジンに固有であったため、構築したアプリケーションを別のプラットフォームに簡単に移植することができなかった。
オープン標準としての中間音声言語(VoiceXMLなど)の登場により、開発プロセスがやや単純化された。これらの中間音声言語では、ブラウザ(音声言語を解釈し、電話操作、音声認識、およびテキスト−音声インフラストラクチャを処理する)と、クライアントアプリケーション(ユーザ対話コード(音声言語で記述されている)を提供する)との間で、音声システムにおける処理の責任が分散される。この結果として、アプリケーション開発者は、低レベルAPIに悩まされる必要はなくなったが、その代わりに、音声ブラウザによって実行されるドキュメントを生成することに関する責任が生じた。
しかしながら、これらの進歩をもってしても、音声アプリケーションの開発は、多くの理由のために依然として複雑である。例えば、音声アプリケーションは、(周知の)グラフィカルユーザインタフェースとは大幅に異なる新しいユーザ双方向交流モデルを提示するが、このモデルには特殊な設計と実装上の専門知識とが要求される。音声インタフェースのコンセプト(例えば、対話管理、文法の最適化、およびマルチスロットインタフェース)は、カスタム仕様の音声システムごとに手作業によって実装される。音声パラダイムの相対的な新しさを考えると、開発者の負担がさらに大きくなる。さらに、プレゼンテーション、ビジネスロジック、およびデータアクセス機能を取り扱うアプリケーションが求められる結果として、そのアーキテクチャは、静的および動的に生成されるドキュメント、バックエンド・サーブレット、文法(grammar)、そのほか互いに無関係のコンポーネントが組み合わされた断片的なものとなる。
企業の音声アプリケーションの開発を単純化するための製品は、数多く市販されている。これらの製品の多くにおける中心的な要素は、事前に定義されておりカスタマイズ可能な音声コンポーネントのライブラリであり、そのライブラリを使用することにより、プログラマが開発する必要のあるコードの量が減少する。これら音声コンポーネントは、通常、発呼者(caller)からの1つの情報(例えば、日付、時刻、金額、一連の数字、あるいは指定可能な項目のセットまたはリスト(例えば、一連の空港)のうちの1つの項目)を取得するのに必要な、音声言語コード、文法、内部コールフロー、プロンプトおよびエラーリカバリルーチンをカプセル化している。
この音声コンポーネントのフレームワークの大きな制限は、ユーザが1回の発話において複数の情報を提供できるようにコンポーネントを組み合わせることができないことである。例えば、フライト予約アプリケーションは、4つのコンポーネント、すなわち、出発空港、到着空港、出発日および出発時刻を使用することができる。既存のフレームワークでは、ユーザは4回の個別の発話において4つの情報を提供することができる。しかしながら、アプリケーションにおいて、ユーザが出発空港、到着空港および出発日を1回の発話において言う(例えば、「フライトは月曜日にボストンからサンフランシスコです」)ことができるようにする場合には、出発空港、到着空港および出発日のコンポーネントを単純に組み合わせることができない。そのかわりに、新しい文法、コールフロー、プロンプトなどを使用して、2つの空港と日付とを認識するための新しいコンポーネントを開発する必要がある。さらに同じ例で、アプリケーションにおいて、発呼者がいくつかの情報を保持する一方で別の情報を変更できるようにする場合(例えば、「いいえ、フライトは火曜日にオークランドまでです」)には、さらに複雑なコンポーネントを開発する必要がある。
これらの制限のために、既存のコンポーネントのフレームワークに依存する音声アプリケーションは、例えば図1aに示したやりとりのように、コールフローがおおまかに予め決定されており、各ステップが1つの情報項目のみを受け入れる、強く方向付けされている対話を実施する。そのような音声システムは、柔軟性がなく、図1bに示したやりとりにおけるように、多くの情報を伝えすぎる発呼者にとって使いづらいことがしばしばある。その結果、これらのシステムは、情報を迅速に取得できなかったり、ユーザが情報を伝えるときのユーザの選択に合わせることができないために、使いにくく、かつ非効率的である。
必要とされているのは、ユーザ(例えば、発呼者)から情報を取得するために、より使いやすく、迅速かつ自然な手法を使用する音声アプリケーションである。
コンポーネントベースの手法を使用して、特定の目的またはトピック(マルチスロット対話)を達成することを目的として複数の関連する情報を集めるための、ユーザとの一連の双方向交流を構築するシステムおよび方法が開示される。なお、本発明は、例えば、プロセス、装置、システム、デバイス、方法、またはコンピュータ可読媒体(例えば、コンピュータ可読記憶媒体、または光通信回線または電気通信回線を通じてプログラム命令が送られるコンピュータネットワーク)を含む、極めて多くの方法で実装され得ることを理解されたい。以下では、本発明のいくつかの独創的な実施形態が説明される。
本方法は、一般的には、セグメントのスロットに対する値をユーザから引き出すための一次ヘッダプロンプトを出力すること、セグメントのスロットの少なくともサブセットの各スロットに対する値を含む一次ユーザ応答を受け取ること、一次ユーザ応答に含まれる各スロットに対する少なくとも1つの候補認識値を決定するために、一次ユーザ応答を処理すること、一次ユーザ応答に含まれる各スロットに、対応する候補認識値から選択される合致値を入力すること、およびスロットセグメントのすべてのスロットが入力されるまで、セグメントの入力されていないスロットに対して、出力すること、受け取ること、処理すること、入力すること、を繰り返すことを含む。
本方法は、合致スロット値を確認するおよび/または明確化するためのターンを、例えば、最良の合致を黙って受け入れること、最良の合致を受動的に確認すること、最良の合致を能動的に確認すること、最良の合致の間のあいまいさを解消すること、および認識できないことをユーザに知らせること、によって、遂行することを含み得る。確認および/または明確化の方法は、例えば、一次ユーザ応答のスロットに対する候補認識値の数、および候補認識値それぞれに対する対応する信頼性レベルに基づいて選択され得る。能動的な確認では、ユーザの確認応答は、確認、取り消し、または取り消しおよび訂正として認識される。取り消しおよび訂正の場合には、訂正は、その訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって処理される。受動的な確認では、受動的確認プロンプトが次の一次ヘッダプロンプトと共に出力される。本方法は、スロットセグメントの入力されていないスロットを有効化することをさらに含むことができ、一次ヘッダプロンプトがセグメントの有効化されたスロットに対する値を引き出す。本方法は、テキストベースまたは音声ベースとすることができる。
別の実施形態においては、ユーザとのマルチスロット対話を構築および処理するシステムは、一般的に、セグメントのスロットを表すスロットオブジェクトであって、各スロットはマルチスロット対話に基づいて値を割り当てられることができる、スロットオブジェクトと、それぞれが対応する1セットのスロットオブジェクトを含む、少なくとも1つのスロットセグメントオブジェクトと、各スロットセグメントオブジェクトに対する少なくとも1セットのスロットグループオブジェクトであって、各スロットグループオブジェクトはスロットセグメントオブジェクトのスロットの特定の組合せに関連するパラメータを定義する、少なくとも1セットのスロットグループオブジェクトと、マルチスロット対話のフローを定義する対話グオブジェクトと、を含むことができる。このシステムは、オブジェクト指向のプログラミング言語において実装され得る。
別の実施形態によると、複数のターンを通じて複数の情報項目を取得するための、ユーザとのマルチスロット対話を構築する方法は、一般的には、少なくとも1つのスロットセグメントオブジェクトを提供することであって、各スロットセグメントオブジェクトは対応する1セットのスロットオブジェクトを含み、各スロットオブジェクトはセグメントのスロットを表し、各スロットはユーザによって提供される情報項目を表す、提供することと、各スロットセグメントオブジェクトに対する少なくとも1セットのスロットグループオブジェクトを提供することであって、各スロットグループオブジェクトはスロットセグメントオブジェクトのスロットの特定の組合せに関連するパラメータを定義する、提供することと、対話オブジェクトによって定義されるマルチスロット対話のフローを実行することと、を含むことができる。
本発明の上記およびその他の特徴および利点は、以下の詳細な説明および添付の図面においてさらに詳しく示される。図面は、本発明の原理を例示として示す。
本発明は、添付の図面を参照する以下の詳細な説明によって容易に理解される。図面において、同一の参照番号は、同一の構造要素を表す。
コンポーネントベースの手法を使用して、特定の目的またはトピック(マルチスロット対話)を達成することを目的として複数の関連する情報を集めるための、ユーザとの一連の双方向交流を構築するシステムおよび方法が開示される。このマルチスロット対話システムおよび方法は、音声認識ベースの一連の双方向交流を実施することによって、ユーザから情報を取得する。本システムおよび本方法は、ユーザに出力されるプロンプトを決定することと、ユーザ入力(例えば、会話またはやりとりにおける各ポイントにおける発話)を認識するために利用される文法および意味規則を含んでいる。以下の説明は、任意の当業者が本発明を構築して使用することができるように提示される。具体的な実施形態およびアプリケーションの記載は単なる例示として示してあるに過ぎず、さまざまな変更が、当業者にとっては明らかである。本明細書において定義される一般的原理は、本発明の精神および範囲から逸脱することなく別の実施形態およびアプリケーションに適用され得る。従って、本発明は、本明細書に開示してある原理および特徴と矛盾しない数多くの代替形態、変更形態、および均等形態を包括する最大限の範囲が与えられるものとする。説明を簡潔にするために、本発明に関連する技術分野において公知である技術内容に関する詳細については、本発明を不必要に解りにくくすることがないように、詳しくは説明していない。
図2a〜図2cは、マルチスロット対話のさまざまな例を示している。マルチスロット対話は、特定の目的またはトピック(例えば、航空機の予約を確認する)を達成するために、複数の関連する情報(「スロット」)を集めることを目的としている。人間にとって便利かつ容易なユーザ双方向交流を達成するために、マルチスロット対話アプリケーションは、(i)発呼者は任意の順序でスロットを提供することができる、(ii)発呼者は1回の入力(例えば、発話)において複数のスロットを提供することができる、(iii)発呼者は1回の発話において、アプリケーションが要求しているスロットの一部のみを提供することができる、(iv)発呼者は自身が提供したスロットの、アプリケーション側の解釈を明確化または訂正することができる、(v)発呼者は以前のスロットをその後の発話において修正することができる、ことを含む、音声媒体における人間の双方向交流に典型的な挙動および双方向交流を、好適にも取り扱う。
これらの人間の双方向交流の要件を満たすために、対話アプリケーションは、相当に複雑な長くかつ高度なコールパスを実行することができる。しかしながら、従来の音声アプリケーションは、マルチスロット対話を実施するには適していない。詳細には、情報が提供され得る動的な順序および組合せは、あらかじめ決定されている柔軟性のないコールフローを指定する従来の音声アプリケーションの、既存のコンポーネントのフレームワークおよび開発方法によっては容易に取り扱うことができない。
手作業による手法ではなく、本明細書に説明するマルチスロット対話システムおよび方法が、コンポーネントベースの手法を使用してマルチスロットダイアログアプリケーションを構築するために利用され得る。このようなコンポーネントベースの手法は、例えば、順序付け、グループ化、プロンプト出力、確認、および/または修正を含む、人間と機械との間のマルチスロット交換の挙動要素のコンポーネントを有する、マルチスロット処理プロセスを自動化する。
図3は、説明用の音声アプリケーションシステム300のブロック図である。このシステムは、一般的には、電話網302を介して音声ブラウザ303と通信する電話301を含み、音声ブラウザ303は、データネットワーク308を介して音声アプリケーション309と通信する。音声ブラウザ303は、電話網302および電話301を介して発呼者との双方向音声通信を実施するハードウェアおよびソフトウェアを含む。音声ブラウザ303は、音声言語で記述されるプログラムを実行することができ、このプログラムは、音声アプリケーション309からデータネットワーク308(インターネット、イントラネットなどの)を通じてドキュメントの形態で送信される。音声ブラウザ303および音声アプリケーション309は、任意の様々な好適なコンピュータシステムに属し得る。
音声言語は、VoiceXMLまたはSpeech Application Language Tags(SALT)などのマークアップ言語であり得る。音声ブラウザ303は、音声認識エンジン304、テキスト−音声合成器305、一般に利用可能な音声形式を使用して記録されたファイルを音声として再生する音声再生プレイヤー306、および電話網を通じた呼出しを処理するコンポーネント307など、さまざまなコンポーネントを含み得る。音声ブラウザ303のさまざまなコンポーネントの任意のものまたはそのすべてを実現することにおいて、音声アプリケーションを構築するために、市販されているコンポーネントおよび/または特許権が保持されているコンポーネントを使用することができる。
音声ブラウザ303は、着呼(incoming call)を検出し、着呼に応答し、音声アプリケーション309からの初期音声ドキュメントを要求し、その音声ドキュメントを解釈し、該当する音声言語の規則に従って音声ドキュメントに含まれている命令を実行する、処理を担当することができる。この場合の命令は、音声によるプロンプトをユーザに出力すること、およびユーザからの音声応答を指定されている文法を使用して処理すること、を含み得る。ユーザにプロンプトを出力するとき、音声ブラウザ303は、あらかじめ記録されたメッセージを音声再生プレイヤー306を使用して音声として再生することができ、または、テキストメッセージをテキスト−音声合成器305を使用して音声として再生することができる。次いで、音声ブラウザ303は、ユーザイベント(発話入力または呼び出しの連絡切断のような)またはシステムイベント(サブシステムの除外のような)に応答するアクション、および/または現在のドキュメントの中にまたは音声アプリケーション309から取得される別のドキュメントの中に定義され得るアクション、を生成することができる。
ここまでは、音声アプリケーションシステム300の全体的なアーキテクチャについて説明した。以下では、音声アプリケーションシステム300によって(例えば、音声ブラウザ303と音声アプリケーション309との組合せによって、などの)実装されるマルチスロットフレームワークについて説明する。マルチスロットの会話モードを実装しているシステムは、一般的には、より制約の少ない質問を含んだプロンプトをユーザに出力するのに対し、従来の方向付けされた会話の対話モードを実装しているシステムは、より具体的なプロンプトをユーザに出力し、より限定された応答を受け入れる。図4は、マルチスロット音声認識ベースの会話を管理するためのマルチスロットフレームワーク401の1つの実施形態を示している。具体的には、マルチスロットフレームワーク401は、ユーザからの情報を取得するためのマルチスロットモードを実施している。このフレームワーク401は、ビジネスロジックとスロット403の一組に対するデータアクセスタスクとを管理する、マルチスロットアプリケーション402を含み得る。本明細書においては、スロットは、その値をテキスト入力あるいは発話などのユーザ入力から取得できるデータ項目と称する。例えば、フライト予約アプリケーションは出発空港スロットを管理することができ、出発空港スロットの有効な値はフライトスケジュールデータベースの中に見出され、その値は、発話されたまたはその他の方法でユーザによって入力された時点で、予約記録に格納される必要がある。マルチスロットプラットフォーム404は、目的のスロットをユーザから取得するための1つ以上の音声双方向交流を構築する。
図5は、フライト再確認のマルチスロット対話のセグメントの例を示しており、図6は、フライト再確認のマルチスロット対話における例示的なセグメントのうちの1つ(すなわちフライト計画)の内容を示している。詳細には、マルチスロット対話はさまざまなレベルにおいてサブユニットに分解することができる。最小のレベルでは、ターン(turn)が、一方の関係者、すなわちシステムまたはユーザからの中断されない入力ストリーム(例えば、音声)である。従って、システムターンは、システムがユーザにメッセージを含んだプロンプトを出力するターンであり、ユーザターンは、ユーザが発話しシステムがその解釈を試みるターンである。交換(exchange)は、1つ以上のスロットに対する値をユーザから取得する一連のターンである。従って、交換は、最終的な1セットのスロット値がシステムによって受け入れられるまでの、1つ以上の確認ターン、訂正ターン、またはあいまいさ解消ターンを含み得る。セグメントは、1セットの関連するスロットを取得する一連の交換である。セグメントは、セグメントに関連付けられているすべてのスロットを1回のユーザターンにおいて提供できる、対話の最大の単位である。図6に示した例においては、5つのスロット、すなわち、出発空港、到着空港、日付、時刻、および午前/午後インジケータがフライト計画セグメントを形成しており、従って、ユーザが「明日の午前9時にサンフランシスコからボストン」と発話することによるなどの、1回のユーザターンにおいて、フライト計画セグメントの最大5つのスロットすべてが入力され得る。
マルチスロット対話は、単一セグメントの対話から、各セグメントが1つ以上のスロットを含む複雑なマルチセグメントの対話まで、その複雑さはさまざまに変わり得る。単一セグメント対話の1つの例は、発呼者から従業員名を要求する電話案内係アプリケーションである。それに対して、マルチセグメント対話の1つの例は、例えば図5に示したフライト再確認対話である。このフライト再確認対話は、例えば、発呼者からフライト計画(図6に示したように出発空港および到着空港と、出発の日付、時刻、および午前/午後インジケータのスロットを含み得る)を要求することができ、予約番号を要求することによって、および姓名などの個人の詳細情報を要求することによって、発呼者が本人であるかを確認することができる。
図7は、フライト計画対話に含まれる交換の例を示している。フライト計画セグメント701は、フライト計画を表す5つのスロットを含んでいる。最初の交換702においては、システムは、ユーザが最大で5つのスロットすべての情報または値を入力することができるように、「フライト計画をお知らせください」というプロンプトをユーザに出力することができる。ユーザは、「フライトはボストンからです」と応答することができ、任意の該当する確認/明確化ターンの後に、アプリケーションは、出発空港スロットに対する値としてボストンを受け入れる。アプリケーションは、事前に定義されているロジックに従って、例えば、次の交換703においては到着空港のみについてプロンプトすべきであると判定し、「お客様の目的地はどこですか」というプロンプトを出力する。ユーザの応答を処理した後に、値「サンフランシスコ」を到着空港スロットに格納する。次いで、アプリケーションは、次の交換704において、例えば、「フライトはいつですか?」というプロンプトを出力することによって、入力されていない残りの3つのスロットに対するプロンプトを出力することができる。「次の金曜日の午前9時30分」というユーザの応答によって、残りの3つのスロットがすべて入力され、対話が完了する。
図8は、例示的なマルチスロット会話800を示す流れ図である。ブロック802における交換の開始時に、音声アプリケーションシステムは、一組のスロットに対する値をユーザから引き出すための一次ヘッダプロンプトを出力する。このシステムプロンプトは、通常、複数の所望のスロットに対する値を1回のターンでユーザが提供できるように構築される。ブロック804において、ユーザは、出力プロンプトに応答して、一次ユーザターンをもって応答する。このユーザターンは、1つ以上のスロット値を提供し得る。ユーザターンがシステムによって認識される場合には、ブロック806において、複数の確認/明確化ターンが続けられ、これらのターンにおいて、システムは、オプションとして、例えば、最良の合致を黙って受け入れること、最良の合致を受動的に確認すること、最良の合致の能動的な確認を要求すること、最良の合致の間のあいまいさを解消すること、または認識できないことをユーザに知らせることができ、これらについては以下でさらに詳しく説明される。このターンからのスロット値が明示的または暗黙的に確認されると、ブロック808において、スロットはそれぞれの値が入力される。
ブロック802〜ブロック808は、1つの交換を表している。現在の交換が完了すると、システムは、決定ブロック810において、任意の入力されていない残りのスロットが現在のセグメントに存在しているかを判定する。現在のセグメントにおけるすべてのスロットが入力されている場合には、システムは、決定ブロック812において、さらなるスロットセグメントが存在しているかを判定する。すべてのセグメントにおけるすべてのスロットが入力されている場合には、マルチスロット対話800が完了する。あるいは、現在のセグメントに入力されていないスロットが残っている場合、および/またはさらなるスロットセグメントがある場合には、対話800は、ブロック802に戻って次の交換を開始する。例えば、次の交換は、入力されなかった任意の残りのスロットに対するプロンプトを出力すること(例えば、「およそ何時ですか?」)によって、前の交換の続行処理を行うこと、または、新しい1組のスロットに対するプロンプトを出力すること(例えば、「借りたい車種は何ですか?」)によって、次のスロットセグメントについて続行することができる。
上述したように、ユーザターンが認識される場合には、複数の確認ターンおよび/または明確化ターンが続けられ得、これらのターンにおいて、システムは、オプションとして、例えば、最良の合致の能動的な確認を要求すること、最良の合致を受動的に確認すること、最良の合致の間のあいまいさを解消すること、最良の合致を黙って受け入れること、または認識できないことをユーザに知らせることができる。確認ターンおよび明確化ターンの詳細は、図9および図10を参照してさらに詳しく説明される。
詳細には、図9は、能動的な確認を使用する例示的な交換の流れ図である。能動的な確認においては、確認プロンプトがユーザに出力される(例えば、「オースティンからサンフランシスコまでと認識しました。正しいですか?」)。この確認プロンプトは、いくつかの確認サイクルがある場合には、交換中に段階的に拡大していくことができる。システムは、スロットに入力する前に、関連するスロットに対する値をユーザ明確に承諾するように要求することができる。ユーザは、取り消しフレーズ(例えば、「いいえ」、「いいえ違います」)を言うことによって、前に認識された値を取り消すことができる。さらに、より効率的な双方向交流を促進するために、システムは、オプションとして、後に訂正が続く取り消しフレーズを含むユーザによる発話(例えば、「いいえ、ボストンからサンフランシスコと言いました」)を受け入れることができる。前に認識された値をユーザが取り消す場合には、システムは、そのユーザターンにおいて認識されたスロット値のすべてを取り消して、図9に示されるように、メッセージ(例えば、「もう一度行います。お客様のフライト計画をお知らせください」)を再生し、交換をもう一度開始することができる。代替案として、システムは、ユーザターンにおいて発話されたユーザ応答を訂正として扱い、例えば「わかりました。ボストンからサンディエゴですね。正しいですか?」というプロンプトを出力することによって、確認/明確化ターンを繰り返すことができる。確認対象のスロットの一部が訂正に含まれていない場合には、システムは、そのようなスロットの前に発話された値を維持することができる。
図10は、受動的な確認を使用する例示的な交換の流れ図である。受動的な確認においては、マルチスロット対話システムは、受動的な確認プロンプトと、次の交換のヘッダプロンプトとの組合せであるプロンプトを出力する。一例として、組み合わされた出力プロンプトは、例えば、「わかりました。オースティンからサンフランシスコですね。フライトはいつですか?」とすることができる。値が正しい場合には、ユーザは確認を明示的に発話する必要がないたに、この受動的な確認手法は、対話のスピードアップを容易にし、システムが高い信頼度のレベルを有するときの認識結果を確認するのに適している。受動的な確認が利用されるときには、スロットはそれぞれの値が入力され、ユーザが取り消しフレーズ(例えば、「いいえ」、「いいえ違います」)を発話したとき、または後に訂正が続く取り消しフレーズ(例えば、「違います。ボストンからサンフランシスコと言いました」)を発話したときに、入力された値は削除またはロールバックされ得る。ユーザが取り消しフレーズによって取り消しを行う場合には、システムは、前の交換において受け入れたスロット値をクリアして、プロンプト(例えば、「失礼しました、もう一度行います」)を出力し、前の交換を繰り返すことができる。代替案として、システムは、ユーザターンにおいて発話されたユーザ応答を訂正として扱い、例えば「わかりました。ボストンからサンフランシスコですね。正しいですか?」というプロンプトを出力することによって、確認/明確化ターンを繰り返すことができる。ユーザが応答において承諾フレーズ(例えば、「はい」)を発話する場合には、新しい交換のためのヘッダプロンプトが繰り返される。受動的な確認の応答においてユーザが取り消しフレーズを発した後には、能動的な確認が使用され得ることは明らかである。しかしながら、受動的な確認の応答においてユーザが取り消しフレーズを発した後には、別のタイプの確認が同様に使用され得る。次の交換が「はい/いいえ」で答えるプロンプトを含む場合には、その受動的な確認の前の受動的な確認をロールバックする機能は無効化され得る。
あいまいさ解消においては、システムは、上位の合致のリストを含んでいるプロンプトを出力し、例えば対応する番号によって、それらの上位の合致のうちの1つ選択することをユーザに要求する。合致のそれぞれは、1つのスロット値、または1組のスロット値を含むことができ、認識されたスロット値すべてを含む、確認プロンプトに類似するプロンプトによって提示され得る。合致が選択されるときには、対応する1つまたは複数の値は一次ユーザターンにおいてそれらが発話されたものとして扱われ、システムは確認/明確化プロセスを繰り返す。
システムは、認識できないことをユーザに知らせることもできる。具体的には、ユーザターンが認識されないときには、システムは例外プロンプト(「認識できませんでした」のような)を出力して、前のシステムターンまたはその修正バージョンを繰り返すことができる。
システムは、交換をさらに円滑にするさまざまな特徴および機能を有するように構成され得、それは図11〜図13を参照して以下に詳しく説明される。例えば、システムは1つの交換中にスキップリストを維持するように構成され得、スキップリストには、その交換中にユーザが確認を取り消すたびに、確認において提示された一連のスロット値に対応するスキップリストエントリが追加される。スキップリストは、同一の交換の中で、システムがスキップリストの中のエントリと合致する1セットの値を使用せず、従って再び提示しないことを確実にするのに役立つ。その代わりに、システムは次に良好な合致を、それが存在するときには、使用し得る。
図11は、システムのさらに別のオプション機能、すなわち後退(go back)機能を含む会話の例を示す流れ図である。具体的には、ユーザは、任意のときに後退コマンド(例えば、「戻ります」)を発話し得、アプリケーションに依存して、前のターンの最初、現在の交換の最初、または現在のセグメントの最初に戻ることができる。システムが一部のスロットに入力したステップをこえて後退する場合には、それらのスロットはクリアされ得る。
マルチスロット対話システムは、1回の交換中に例外、訂正、または後退が閾値回数だけ起きた後には、強く方向付けされたプロンプトを適応的に提示するように構成され得る。例えば、システムは、新しい強く方向付けされたヘッダプロンプト「車を受け取る日はいつですか?例えば、明日、次の火曜日または7月24日とおっしゃってください」を提示することができる。依然として例外、訂正、または後退が起こる場合には、システムはさらなる援助のために、ユーザを人間のオペレータにつなぐことができる。
図12は、システムのさらに別のオプション機能、すなわち変更機能を含む会話の例を示す流れ図である。変更機能は、ユーザが例えば「空港を変更したい」と発話することによって、前に入力されたスロット値を変更することを可能にする。変更を要求するユーザの発話によって、変更要求に必要なスロットすべてに入力されない場合には、システムは、続行処理交換(「出発空港ですか、到着空港ですか?」のような)を開始する。変更コマンドは、オプションとして、上述した任意の確認メカニズムを使用して確認され得る。例えば、システムは「到着空港の変更を希望されたように認識しました。正しいですか?」というプロンプトを出力することによって、変更コマンドを能動的に確認することができる。
変更コマンドは、ユーザの現在の交換を取り消し、前に入力されたスロット値の少なくとも一部をクリアする。次いで、新しい交換が開始され、それは1つ以上の交換において入力することのできるクリアされたスロットについてのプロンプトをユーザに出力する。クリアされたスロットが入力されると、システムは処理を続行し、前のいくつかの交換と関連付けられているスロットに依然として入力されている場合には、それらの交換をバイパスすることになる。
図13は、システムのさらに別のオプション機能、すなわち確認機能を含む会話の例を示す流れ図である。詳細には、ユーザは要求フレーズ(「出発日を確認できますか?」のような)を発話することによって、前に入力されたスロット値の確認を要求できる。システムは確認コマンドに応答して、入力されているスロット値を再生(「フライトは2002年8月9日金曜日です」のように)し、現在の交換に戻る。確認要求に必要なすべてのスロットに対する値をユーザが提供しない場合には、システムは続行処理交換(「出発日ですか帰着日ですか?」のような)を開始する。
(マルチスロット対話の実装)
次に、マルチスロット対話を実装する例示的なシステムまたはプラットフォームが説明される。本明細書においては、マルチスロット対話を実装するプラットフォームは、単なる一例として、Java(登録商標)を利用して実装するものとして説明される。しかしながら、本システムは、任意の適したプログラミング言語、好ましくはオブジェクト指向のプログラミング言語(例えば、Java(登録商標)、C++)を使用して実装され得ることを理解されたい。システムは、一般的には、スロットオブジェクト、スロットグループオブジェクト、セグメントオブジェクト、および対話オブジェクトを含む。以下では、これらのオブジェクトのそれぞれが説明される。
次に、マルチスロット対話を実装する例示的なシステムまたはプラットフォームが説明される。本明細書においては、マルチスロット対話を実装するプラットフォームは、単なる一例として、Java(登録商標)を利用して実装するものとして説明される。しかしながら、本システムは、任意の適したプログラミング言語、好ましくはオブジェクト指向のプログラミング言語(例えば、Java(登録商標)、C++)を使用して実装され得ることを理解されたい。システムは、一般的には、スロットオブジェクト、スロットグループオブジェクト、セグメントオブジェクト、および対話オブジェクトを含む。以下では、これらのオブジェクトのそれぞれが説明される。
スロットオブジェクトは、上述したように、ユーザから取得される情報項目であるスロットを表す。スロットオブジェクトは、対応するスロットに対してユーザによって提供され得る候補値を認識する文法、文法の認識結果をそのスロットの意味値にマッピングする規則、ならびにそのスロットの有効状態および入力状態を示す変数(他の状態変数の中で)を含む。スロットオブジェクトは、基本のデフォルト機能および/またはすべてのスロットオブジェクトに共通する機能を提供する、Java(登録商標)インタフェースをベースとすることができる。
対応するスロットに対してユーザによって提供され得る候補値を認識する文法は、スロットの候補値を表現するためにシステムが受け入れる、発話の正式な規格(specification)である。文法は、使用できる単語の語彙およびそれらの単語を並べるための有効な構造を含み得る。例えば、日付スロットに対する文法は、絶対的な指定形式(「2004年1月12日」のような)から、相対的な形式(「次の金曜日」のような)および日常語(「今日」、「昨日」のような)にいたるまでの、さまざまな日付形式が認識されるようにする必要がある。また、文法は、ユーザの発話におけるスロット値の前および/または後に置かれ得る補足フレーズ(filler)を含み得るが、補足フレーズは、1つのスロット値を規定したり別の値と区別したりすることはない。例えば、空港スロットは、先行する補足フレーズとして「出発地は」を有し得る。一部の文法は、フライト予約アプリケーションにおける指定可能な空港に対する文法のように、アプリケーションに高度に固有のものであり得る。別の文法は、例えば、日付、時刻、または金額に対する文法のように、アプリケーション間で共通に使用され得る。これらの文法の共通部分は、文法オブジェクトの中にあらかじめ定義され得、特定のスロットに対してカスタマイズされ得る。
文法の規則に加えて、各スロットオブジェクトは、文法の認識結果を、その特定のアプリケーションにおいて意味のある対応するスロットの意味値にマッピングする規則をも含んでいる。例えば、到着空港スロットオブジェクトは、「サンフランシスコ」、「サンフランシスコ空港」、「サンフランシスコ国際空港」および「SFO」という発話を、「SFO」という1つの空港識別子にマッピングすることができる。別の例として、日付スロットオブジェクトは、「明日」という発話を、現在の日付の翌日の日付として計算される日付値にマッピングすることができる。
各スロットオブジェクトは、またマルチスロット対話の実行中に使用される複数の状態変数またはフラグを維持し、これらは、対応するスロットの有効状態および入力状態を(他の状態変数の中で)示す。フラグの例は、有効フラグ、オプションフラグ、入力済みフラグ、保留中フラグを含む。詳細には、有効フラグは、次のユーザターンにおいてスロットが受け入れ可能であることを示すときに、真(true)に設定される。オプションフラグは、ユーザによって有効なスロットが必ずしも明示的に提供される必要のない場合に、真に設定される。入力済みフラグは、任意の該当する確認/明確化の後にスロット値が受け入れられたときに、真に設定される。保留中フラグは、スロットに対する値がユーザによって認識されたが、まだ受け入れられていない(例えば、確認が保留されている)場合に、真に設定される。
システムは、各スロットセグメントに対してスロットグループオブジェクトを維持し、その例は、図14および図15において、フライト計画セグメントに対して示されている。各スロットグループオブジェクトは、スロットセグメントにおけるスロットの特定のグループまたは組合せと関連付けられるパラメータまたはプロパティを定義する。スロットグループのプロパティの例は、プロンプト(ヘッダまたはメインプロンプト、ヘルププロンプト、エラープロンプト、確認プロンプトおよび/またはあいまいさ解消プロンプトのような)と、認識プロパティ、すなわち認識挙動に影響する変数(タイムアウト、認識閾値、認識パラメータ、キャッシング方式、その他、のような)とを含む。異なるスロットグループクラス(例えば、それぞれ、図14および図15に示された、認識前スロットグループクラス、および認識後スロットグループクラス)が、個別のプロパティセットを維持するために定義され得る。
具体的には、図14は、フライト計画セグメントの認識前スロットグループクラスに対して可能なスロットグループオブジェクトの一部を示している。認識前スロットグループクラスは、スロット値が認識される前に使用されるプロンプトおよび認識プロパティ(ヘッダまたはメインプロンプト、ヘルププロンプト、合致なしプロンプト、入力なしプロンプト、タイムアウト、信頼度閾値、その他、などの)を含み得る。認識前スロットグループクラスが使用されるときには、通常、スロットの組合せが、現在有効なスロットのセットと比較される。
図15は、フライト計画セグメントの認識後スロットグループクラスに対して可能なスロットグループオブジェクトの一部を示している。認識後スロットグループクラスは、スロット値が認識された後に使用されるプロンプトおよび認識プロパティ(能動的な確認プロンプト、あいまいさ解消プロンプト、受動的な確認プロンプト、その他、などの)を含み得る。認識後スロットグループクラスが使用されるときには、通常、スロットの組合せが、現在保留中のスロットのセット、すなわちユーザから認識されたがまだ確認されていないスロットと比較される。
マルチスロット対話の中のあるポイントにおいて、プロンプトまたは認識プロパティなどのパラメータが必要とされるときには、システムは、そのパラメータを含むスロットグループクラスから最も合致するスロットグループオブジェクトを識別し、識別された最も合致するスロットグループオブジェクトの中で、所望のパラメータの値を探索する。例えば、マルチスロット対話の中のあるポイントにおいて、システムが現在有効なスロットの組合せ(例えば、日付、時刻、および午前−午後)におけるスロットに対する値をユーザから引き出すために、ヘッダプロンプトが必要である場合には、システムは、図14における認識前スロットグループクラスから最も合致するスロットグループオブジェクトを識別する。システムは、そのスロットの組合せが現在有効なスロットの組合せに最も近い、スロットグループオブジェクトを選択する。最も近いスロットの組合せは、さまざまな好適な方法(例えば、スロットグループオブジェクトにおける重複しているスロットの最大数、重複していないスロットの最小数、または、有効なグループにおける重複していないスロットの最小数)を利用して決定され得る。本例においては、システムは、図14に示された認識前スロットグループクラスの中のスロットグループオブジェクトのうちで、スロットの組合せが、現在有効なスロットの組合せ(すなわち、日付、時刻、および午前−午後)に正確に一致しているスロットグループオブジェクトを識別して使用する。しかしながら、正確に合致しているスロットグループオブジェクトが見つからない場合には、最も近いとみなされる別のグループオブジェクト、例えば2つのスロットの組合せ(時刻スロットおよび午前−午後スロットのような)を持つグループオブジェクトが識別され使用され得る。有効なスロットの任意の組合せに対してスロットグループを必ず見つけることができるように、システムは、スロットセグメントの各スロットに対して、個別のスロットグループオブジェクトを定義することができる。
システムは、またセグメントオブジェクトを含む。セグメントオブジェクトは、スロットセグメントにおける1セットのスロットを維持し、それは1つ以上の連続する一連のマルチスロット交換を決定する。1つのスロットセグメントにおけるスロットに対する値は、1回の交換においてユーザから取得され得る。代替案としては、ユーザがセグメントの中のすべてのスロットに対す値を1回の交換において提供しない場合には、必須のスロット、すなわちオプションではないスロットすべてに入力されるまで、続行処理交換が開始される。セグメントが完全に入力されると、次のセグメントが(存在時には)呼び出される。
システムは、対話フローを定義する対話オブジェクトをさらに含む。マルチスロット対話のそれぞれが異なる機能を実行できるが、各対話の対話フローは、一般的には共通の構造を持つ。図16は、例示的なダイアログフローの構造を示すブロック図である。システムがブロック1601において対話を開始した後、システムはブロック1602において対話における最初のセグメントを取得する。システムは、ブロック1603において、例えば、まだ入力されていないスロットを含めることによって、そのセグメントの中の有効にすべきスロットを決定する。ブロック1604において、最も近い認識前スロットグループが選択され、ヘッダプロンプトおよびその他の認識前パラメータ(ヘルププロンプト、例外プロンプトなどの)を取得する。ヘッダプロンプトは、通常、ユーザが複数の所望のスロットを1回の発話においてが提供できるように構築される。例えば、スロットが、日付スロット、時刻スロット、および子午線(午前/午後)スロットを含む場合には、プロンプトは「いつ車を受け取りますか?」とすることができる。次いで、システムは、ブロック1605において、ユーザの応答を受け取って処理し、この処理は、例えば、1セットのスロット値がシステムによって受け入れられるまで、ユーザの意図する単語列の最良の推定を音声認識エンジンから取得し、アプリケーションのカスタム設定に基づいて任意の所望の確認、明確化またはあいまいさ解消を実行することによってなされる。
次いで、システムは、決定ブロック1606において、入力されるべきさらなるスロット(通常では、値がまだ入力されていないスロットを含む)がスロットセグメントに含まれているかを判定する。なお、システムは、決定ブロック1606において、入力されるべきさらなるスロットがスロットセグメントに含まれているかを判定するときに、アプリケーションに固有なロジックとして、一部のスロット値は別のスロット値から自動的に入力され得、または入力される必要があること、一部のスロットはオプションであること、または他の受け入れられたスロットに対する値の結果として、特定の追加のスロットが入力される必要があること、を指定するロジックを適用できる。決定ブロック1606において、一部のスロットが入力されずに残っていると判定された場合には、システムはブロック1603に戻り、次のスロットのセットを有効化する。残っていないと判定された場合には、システムは、決定ブロック1607に進み、さらなるスロットセグメントが存在しているかを判定する。少なくとも1つ以上のさらなるスロットセグメントが残っている場合には、システムはブロック1608において次のセグメントを取得し、ブロック1603に戻る。あるいは、スロットセグメントが残っていない場合には、ブロック1610において対話が終了する。
ユーザの入力を処理するときには、システムは、通常モードまたは受動的な確認モードであり得る。受動的な確認モードは、何らかのあらかじめ定義されている基準に基づいて、ユーザの応答を受動的に確認すべきであるとシステムが判定するときに起動される。そのような一連の基準の1つとして、音声エンジンによって戻される信頼性レベルが、黙って受け入れる場合の閾値よりも低いが、能動的な確認が要求される閾値よりも高い場合とすることができる。受動的な確認モードが起動されない場合には、システムはデフォルトによって通常モードになり得る。図17は、通常モードにおけるユーザの入力の例示的な処理を示す流れ図であり、図18は、受動的な確認モードにおけるユーザの入力の例示的な処理を示す流れ図である。通常モードか受動的なモードかの判定は、例えば、それにユーザの応答が対応するスロットのセットに対する信頼性レベルの加重値または平均値に基づくことができる。複数のスロットに対する値が含まれているユーザ応答を処理するときには、例えば、ユーザ応答におけるすべてのスロットに対する1回の判定によるか、あるいは、ユーザ応答における各スロットに対して個別に判定し、それら個別の結果の平均値または加重値によって判定することができる。
図17に示された通常モードにおいては、ブロック1701において、音声エンジンがユーザの入力を認識し、1つ以上の推定を戻す。決定ブロック1702の判定において、いくつかの合致候補が音声エンジンによって戻される場合には、ブロック1708において、それらの合致候補のあいまいさが解消され得る。例えば、ユーザに上位の合致候補のリストを提示し、1つを選択するように求めることができる。各合致候補は、確認プロンプトに類似するあいまいさ解消プロンプトによって提示され得る。ブロック1709において、ユーザによって選択された合致値が受け取られ処理されると、システムは、ブロック1710において次の交換に進む。
代替案としては、決定ブロック1702の判定において、音声エンジンによって1つのみの推定、すなわち最良の合致が戻される場合には、システムは、決定ブロック1703において、その1つの推定の信頼性レベルが、あらかじめ定義されている高信頼性閾値に等しいかまたはそれよりも大きいかを判定する。高信頼性レベルが高信頼性閾値に等しいかまたはそれよりも大きい場合には、システムは、そのスロット値を受け入れて、ブロック1707において、受動的な確認モードに入る。あるいは、高信頼性レベルが高信頼性閾値よりも小さい場合には、システムは、ブロック1704において確認プロンプトを出力することによって、その最良の合致を能動的に確認する。例えば、システムは、認識後スロットグループクラスの中のスロットグループのうち、その最良の合致におけるスロットのグループに最も近いスロットグループを識別し、それに対応する能動的な確認プロンプトを取得することによって、確認プロンプトを構築することができる。ブロック1705において、確認プロンプトへのユーザの応答が受け取られ、処理される。ユーザが取り消しフレーズ(例えば、「いいえ」、「違います」)を発話することによって確認を取り消し、訂正を提供する場合には、訂正された値は確認のためにブロック1704に戻り得る。ユーザが訂正せずに確認を取り消す場合には、ブロック1706において、現在の交換が繰り返される。言い換えれば、任意の保留中のスロット値は破棄またはクリアされ、システムは最初に再生したヘッダプロンプトを繰り返す。ユーザが、例えば「はい」または「そうです」などのフレーズを発話することによって確認を受け入れる場合には、システムはスロット値を受け入れて、ブロック1710において次の交換に進む。
図18に示された受動的な確認モードにおいては、1つの交換からの確認プロンプトが、次の交換のヘッダプロンプトと組み合わされる。組み合わせたプロンプトは、例えば「わかりました。ボストンですね。フライト日はいつですか?」とすることができる。次いで、ブロック1801において、ユーザの応答は音声エンジンによって認識される。決定ブロック1802での判定において、ユーザの応答が受け入れフレーズまたは取り消しフレーズで始まっていない(すなわち先頭が「はい」または「いいえ」ではない)場合には、そのユーザの応答は、上述した通常モードの場合と同様に処理される。あるいは、決定ブロック1802での判定において、ユーザの応答が受け入れフレーズまたは取り消しフレーズで始まっている場合には、前のスロット値が影響される。ユーザの応答が肯定応答である場合には、ブロック1803において、新しい交換に対するヘッダプロンプト(例えば、「フライト日はいつですか?」)が単純に繰り返され得る。ユーザ応答が否定応答であり訂正が含まれない場合には、システムは、前の交換において受け入れたスロット値をクリアし、ブロック1804において、「失礼しました、もう一度行います」などのメッセージを再生し、前の交換を繰り返すことができる。ユーザ応答が否定応答であり訂正が含まれる場合には、ブロック1805において、前の交換のスロットが明示的に受け入れられる、または取り消されるまで、訂正された値は明示的に確認される。
本システムでは、一次ユーザターンの間に、ユーザは1つ以上の有効スロットに対する値を提供することができる。従って、一次ユーザターンの文法は、スロットのさまざまな柔軟な組合せを認識するように柔軟に構成される必要がある。例えば、図19は、3つのスロットが含まれる交換の場合の可能な文法を示している。この図のそれぞれの分岐は、ユーザの発話に合致しうる文法規則を表す。参照番号1901、1902、1903は、それぞれスロット1、2、3に対する文法を表している。最初の分岐において、スロット2およびスロット3に対応する文法1902および文法1903のそれぞれに付されている接尾辞演算子「?」は、スロット2およびスロット3がオプションであり、この最初の分岐においては、ユーザの発話はスロット1の値を、またオプションとしてスロット2の値を含み、また、スロット2の値が存在する場合にはオプションとしてスロット3の値を含むことを示している。なお、使用される言語の規準(norm)と特定の交換のコンテキストとに応じて、スロットの許容される組合せ(あるスロットは別のスロットの前に位置しなくてはならない、などの)を、アプリケーション側で制限することができることに注意するべきである。
本システムでは、確認ターンの間に、ユーザは確認を受け入れるかまたは取り消すことができるのみならず、訂正値を提供することができる。従って、確認ターンに対する文法は、受け入れ文法および取り消し文法と、確認対象のスロットに対する文法が含まれるように構築される必要があり、図20は確認ターンに対する文法の例を示している。受け入れ文法2001は、肯定応答を表す一組のフレーズ(「はい」、「正しいです」および「そうです」などの)を含む。取り消し文法2002は、否定応答を表す一組のフレーズ(「いいえ」、「違います」および「正しくありません」などの)を含む。取り消し文法が存在する場合には、取り消されたスロットに対する新しい値を認識するオプションの訂正文法2003が含まれる。
本明細書においては本発明の例示的な実施形態が記載され示されているが、これらは単に説明のためのものであり、本発明の精神および範囲から逸脱することなくこれらの実施形態に対して変更がなされ得ることが理解される。例えば、本明細書に説明したマルチスロットシステムおよび方法は、音声認識システムを使用しての音声双方向交流に好適であるが、このマルチスロットシステムおよび方法は、テキストベースのマルチスロット双方向交流(双方向的インターネットベースのマルチスロット対話)による使用に対してもまた適合され得る。従って、本発明の範囲は、補正される場合を含む「特許請求の範囲」のみによって定義されるものであり、各請求項は、本発明の実施形態として「発明を実施する最良の形態」の中に明示的に援用される。
Claims (38)
- ユーザとのマルチスロット対話を構築および処理する方法であって、
セグメントのスロットに対する値をユーザから引き出すために、一次ヘッダプロンプトを出力することと、
一次ユーザ応答を受け取ることであって、該一次ユーザ応答は、該セグメントの該スロットの少なくともサブセットの中の各スロットに対する値を含む、該受け取ることと、
該一次ユーザ応答に含まれる、各スロットに対する少なくとも1つの候補認識値を決定するために、該一次ユーザ応答を処理することと、
該一次ユーザ応答に含まれる各スロットに、対応する少なくとも1つの候補認識値のうちから選択される合致値を入力することと、
該スロットセグメントのすべてのスロットが入力されるまで、該セグメントの任意の入力されていないスロットに対して、該出力すること、該受け取ること、該処理すること、および該入力すること、を繰り返すこと
を包含する、方法。 - 前記一次ユーザ応答に含まれるスロットに対する前記合致スロット値を、確認するおよび明確化するのうちの少なくとも1つ、のためにターンを遂行すること、
をさらに包含する、請求項1に記載の方法。 - 前記確認するおよび明確化するのうちの少なくとも1つは、最良の合致を黙って受け入れる、最良の合致を受動的に確認する、最良の合致を能動的に確認する、最良の合致の間のあいまいさを解消する、および認識できないことを前記ユーザに知らせる、からなるグループのうちから選択される、請求項2に記載の方法。
- 前記確認するおよび明確化するのうちの少なくとも1つは、前記一次ユーザ応答の中の前記スロットに対する候補認識値の数、および該候補認識値のそれぞれに対する対応する信頼性レベルに基づいて選択される、請求項3に記載の方法。
- 前記確認するおよび明確化するのうちの少なくとも1つが能動的な確認であるときには、前記ターンを遂行することは、ユーザの確認応答を、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することを含み、また、該ユーザの確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項3に記載の方法。
- 前記確認するおよび明確化するのうちの少なくとも1つが受動的な確認であるときには、前記ターンを遂行することは、ユーザの受動的な確認応答を、次の一次ヘッダプロンプトへの応答、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することを含み、また、該ユーザの受動的な確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項3に記載の方法。
- 前記スロットセグメントの入力されていない任意のスロットを有効化することをさらに包含する、請求項1に記載の方法であって、
前記一次ヘッダプロンプトが、該セグメントの有効化されたスロットに対する値を引き出す、方法。 - 前記一次ユーザ応答を前記処理することは、対応するスロットに対する候補値の認識を容易にするための文法規則を適用することを含む、請求項1に記載の方法。
- 前記一次ヘッダプロンプトを前記出力することは、入力されていないセグメントのセットに依存する、請求項1に記載の方法。
- 前記出力すること、および前記受け取ることは、テキストベースおよび音声ベースのうちの1つである、請求項1に記載の方法。
- ユーザとのマルチスロット対話を構築および処理するシステムであって、
それぞれがセグメントのスロットを表す複数のスロットオブジェクトであって、各スロットは該マルチスロット対話に基づく値を割り当てられ得る、該複数のスロットオブジェクトと、
少なくとも1つのスロットセグメントオブジェクトであって、各スロットセグメントは対応する1セットのスロットオブジェクトを含む、該少なくとも1つのスロットセグメントオブジェクトと、
各スロットセグメントオブジェクトに対する少なくとも1セットのスロットグループオブジェクトであって、各スロットグループオブジェクトは該スロットセグメントオブジェクトのスロットの特定の組合せと関連するパラメータを定義する、該少なくとも1セットのスロットグループオブジェクトと、
該マルチスロット対話のフローを定義する対話オブジェクトと
を備える、システム。 - 前記システムは、オブジェクト指向のプログラミング言語において実装される、請求項11に記載のシステム。
- 少なくとも1セットのスロットグループオブジェクトに対する各パラメータは、該パラメータの個別のセットの維持を容易にするために定義される、少なくとも2つのスロットグループクラスのうちの1つに分類される、請求項11に記載のシステム。
- 前記スロットグループクラスは、認識前スロットグループクラスおよび認識後スロットグループクラスを含む、請求項13に記載のシステム。
- 各スロットオブジェクトは、前記対応するスロットに対して前記ユーザによって提供される候補値の認識を容易にするための文法、文法の認識結果の該対応するスロットに対する意味値へのマッピングを容易にする規則、および該対応するスロットの状態を示す変数を含む、請求項11に記載のシステム。
- 各スロットグループオブジェクトによって定義される前記パラメータは、ヘッダプロンプト、ヘルププロンプト、エラープロンプト、確認プロンプト、あいまいさ解消プロンプト、および認識プロパティからなるグループのうちから選択される、請求項11に記載のシステム。
- 前記システムは、テキストベースおよび音声ベースのうちの1つである、請求項11に記載のシステム。
- 複数のターンを通じて複数の情報項目を取得するための、ユーザとのマルチスロット対話を構築する方法であって、
少なくとも1つのスロットセグメントオブジェクトを提供することであって、各スロットセグメントオブジェクトは対応する1セットのスロットオブジェクトを含み、各スロットオブジェクトはセグメントのスロットを表し、各スロットは該ユーザによって提供される情報項目を表す、提供することと、
各スロットセグメントオブジェクトに対する少なくとも1セットのスロットグループオブジェクトを提供することであって、各スロットグループオブジェクトは、該スロットセグメントオブジェクトのスロットの特定の組合せに関連するパラメータを定義する、提供することと、
対話オブジェクトによって定義されるマルチスロット対話のフローを実行すること
を包含する、方法。 - 各スロットオブジェクトは、前記対応するスロットに対して前記ユーザによって提供される候補値の認識を容易にするための文法、文法の認識結果を該対応するスロットに対する意味値にマッピングする規則、および該対応するスロットの状態を示す変数を含む、請求項18に記載の方法。
- 少なくとも1セットのスロットグループオブジェクトに対する各パラメータは、該パラメータの個別のセットの維持を容易にするために定義される少なくとも2つのスロットグループクラスのうちの1つに分類される、請求項18に記載の方法。
- 前記スロットグループクラスは、認識前スロットグループクラスおよび認識後スロットグループクラスを含む、請求項20に記載の方法。
- 各スロットグループオブジェクトによって定義される前記パラメータは、ヘッダプロンプト、ヘルププロンプト、エラープロンプト、確認プロンプト、あいまいさ解消プロンプト、および認識プロパティからなるグループのうちから選択される、請求項18に記載の方法。
- 前記システムは、テキストベースおよび音声ベースのうちの1つである、請求項18に記載の方法。
- 実行することは、ユーザ入力に応答してアクションを遂行することを含み、該アクションは、最良の合致を黙って受け入れること、最良の合致を受動的に確認すること、最良の合致を能動的に確認すること、最良の合致の間のあいまいさを解消すること、および認識できないことを前記ユーザに知らせることからなるグループのうちから選択される、請求項18に記載の方法。
- 前記アクションが能動的な確認であるときには、前記実行することは、ユーザの確認応答を、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することをさらに含み、また、該ユーザの確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項24に記載の方法。
- 前記アクションが受動的な確認であるときには、前記実行することは、ユーザの受動的な確認応答を、次の一次ヘッダプロンプトへの応答、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することをさらに含み、また、該ユーザの受動的な確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項24に記載の方法。
- 前記アクションは、前記スロットに対する複数の候補値の数、および各候補値に対する対応する信頼性レベルに基づいて選択される、請求項24に記載の方法。
- 前記対話オブジェクトは、スロット値を確認するおよび明確化するのうちの少なくとも1つのためのターンを定義する、請求項18に記載の方法。
- コンピュータ可読媒体に具体化されるコンピュータプログラム製品であって、該コンピュータプログラム製品は命令を含み、該命令は、それがプロセッサによって実行されるときには、該プロセッサをして、
セグメントのスロットに対する値をユーザから引き出すために一次ヘッダプロンプトを出力することと、
一次ユーザ応答を受け取ることであって、該一次ユーザ応答は該セグメントの該スロットの少なくともサブセットの各スロットに対する値を含む、該受け取ることと、
該一次ユーザ応答に含まれる各スロットに対する少なくとも1つの候補認識値を決定するために、該一次ユーザ応答を処理することと、
該一次ユーザ応答に含まれる各スロットに、該対応する少なくとも1つの候補認識値から選択される合致値を入力することと、
該スロットセグメントのすべてのスロットが入力されるまで、該セグメントの任意の入力されていないスロットに対して、該出力すること、該受け取ること、該処理すること、および該入力すること、を繰り返すこと
を行わせる、コンピュータプログラム製品。 - 命令をさらに含む請求項29に記載のコンピュータプログラム製品であって、該命令は、それが前記プロセッサによって実行されるときには、該プロセッサをして、
該一次ユーザ応答に含まれるスロットに対する前記合致スロット値を確認するおよび明確化する、のうちの少なくとも1つのためのターンを遂行させる、
コンピュータプログラム製品。 - 確認するおよび明確化するのうちの前記少なくとも1つは、最良の合致を黙って受け入れる、最良の合致を受動的に確認する、最良の合致を能動的に確認する、最良の合致の間のあいまいさを解消する、および認識できないことを前記ユーザに知らせる、からなるグループのうちから選択される、請求項30に記載のコンピュータプログラム製品。
- 確認するおよび明確化するのうちの前記少なくとも1つは、前記一次ユーザ応答の前記スロットに対する候補認識値の数、および該候補認識値のそれぞれに対する対応する信頼性レベルに基づいて選択される、請求項31に記載のコンピュータプログラム製品。
- 確認するおよび明確化するのうちの前記少なくとも1つが能動的な確認であるときには、前記ターンを遂行することは、ユーザの確認応答を、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することを含み、また、該ユーザの確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項31に記載のコンピュータプログラム製品。
- 確認するおよび明確化するのうちの前記少なくとも1つが受動的な確認であるときには、前記ターンを遂行することは、ユーザの受動的な確認応答を、次の一次ヘッダプロンプトへの応答、確認、取り消し、ならびに取り消しおよび訂正のうちの1つとして認識することを含み、また、該ユーザの受動的な確認応答が取り消しおよび訂正であるときには、該訂正を処理して該訂正に含まれる各スロットに対する少なくとも1つの候補認識値を決定することによって、該訂正が処理される、請求項31に記載のコンピュータプログラム製品。
- 命令をさらに含む請求項29に記載のコンピュータプログラム製品であって、該命令は、それが前記プロセッサによって実行されるときには、該プロセッサをして、
前記スロットセグメントの入力されていない任意のスロットを有効化することであって、前記一次ヘッダプロンプトは前記セグメントの有効化されたスロットに対する値を引き出す、有効化することを行わせる、
コンピュータプログラム製品。 - 前記一次ユーザ応答を前記処理することは、対応するスロットに対する候補値の認識を容易にするために文法規則を適用することを含む、請求項29に記載のコンピュータプログラム製品。
- 前記一次ヘッダプロンプトを前記出力することは、入力されていないセグメントのセットに依存する、請求項29に記載のコンピュータプログラム製品。
- 前記出力することおよび前記受け取ることは、テキストベースおよび音声ベースのうちの1つである、請求項29に記載のコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/885,934 US7228278B2 (en) | 2004-07-06 | 2004-07-06 | Multi-slot dialog systems and methods |
PCT/US2005/023844 WO2006014432A2 (en) | 2004-07-06 | 2005-07-06 | Multi-slot dialog systems and methods |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008506156A true JP2008506156A (ja) | 2008-02-28 |
Family
ID=35542461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007520443A Withdrawn JP2008506156A (ja) | 2004-07-06 | 2005-07-06 | マルチスロット対話システムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7228278B2 (ja) |
EP (2) | EP2282308B1 (ja) |
JP (1) | JP2008506156A (ja) |
ES (2) | ES2526698T3 (ja) |
WO (1) | WO2006014432A2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和*** |
KR101522837B1 (ko) * | 2010-12-16 | 2015-05-26 | 한국전자통신연구원 | 대화 방법 및 이를 위한 시스템 |
WO2016136207A1 (ja) * | 2015-02-27 | 2016-09-01 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム |
WO2016136208A1 (ja) * | 2015-02-27 | 2016-09-01 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 |
JP2017517776A (ja) * | 2014-10-29 | 2017-06-29 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 対話処理方法、対話管理システム、およびコンピュータ機器 |
WO2019065647A1 (ja) * | 2017-09-28 | 2019-04-04 | 株式会社東芝 | 対話処理装置および対話処理システム |
JP2022515005A (ja) * | 2018-10-10 | 2022-02-17 | 華為技術有限公司 | 人間とコンピュータとの相互作用方法および電子デバイス |
JP2022534242A (ja) * | 2019-05-31 | 2022-07-28 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
KR20230108346A (ko) * | 2020-12-08 | 2023-07-18 | 구글 엘엘씨 | 부분 가설들에 기초한 스트리밍 액션 이행 |
KR102666928B1 (ko) * | 2023-09-20 | 2024-05-20 | (주)뮤자인 | 챗봇을 이용한 컨텐츠 관리 시스템 |
Families Citing this family (189)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20060015335A1 (en) * | 2004-07-13 | 2006-01-19 | Ravigopal Vennelakanti | Framework to enable multimodal access to applications |
GB0426347D0 (en) | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US7706780B2 (en) * | 2004-12-27 | 2010-04-27 | Nokia Corporation | Mobile communications terminal and method therefore |
US20060140357A1 (en) * | 2004-12-27 | 2006-06-29 | International Business Machines Corporation | Graphical tool for creating a call routing application |
US20060149553A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | System and method for using a library to interactively design natural language spoken dialog systems |
US8478589B2 (en) | 2005-01-05 | 2013-07-02 | At&T Intellectual Property Ii, L.P. | Library of existing spoken dialog data for use in generating new natural language spoken dialog systems |
US8185399B2 (en) | 2005-01-05 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method of providing an automated data-collection in spoken dialog systems |
TWI269268B (en) * | 2005-01-24 | 2006-12-21 | Delta Electronics Inc | Speech recognizing method and system |
US20060217978A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling information in a voice recognition automated conversation |
US20060215824A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling a voice prompted conversation |
US7720684B2 (en) * | 2005-04-29 | 2010-05-18 | Nuance Communications, Inc. | Method, apparatus, and computer program product for one-step correction of voice interaction |
US7684990B2 (en) * | 2005-04-29 | 2010-03-23 | Nuance Communications, Inc. | Method and apparatus for multiple value confirmation and correction in spoken dialog systems |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7778632B2 (en) * | 2005-10-28 | 2010-08-17 | Microsoft Corporation | Multi-modal device capable of automated actions |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP2008065789A (ja) * | 2006-09-11 | 2008-03-21 | Canon Inc | 入力操作支援装置およびその制御方法 |
JP4322907B2 (ja) * | 2006-09-29 | 2009-09-02 | 株式会社東芝 | 対話装置、対話方法及びコンピュータプログラム |
US20080091426A1 (en) * | 2006-10-12 | 2008-04-17 | Rod Rempel | Adaptive context for automatic speech recognition systems |
US8767718B2 (en) * | 2006-11-14 | 2014-07-01 | Microsoft Corporation | Conversation data accuracy confirmation |
WO2008108232A1 (ja) * | 2007-02-28 | 2008-09-12 | Nec Corporation | 音声認識装置、音声認識方法及び音声認識プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20090055163A1 (en) * | 2007-08-20 | 2009-02-26 | Sandeep Jindal | Dynamic Mixed-Initiative Dialog Generation in Speech Recognition |
WO2009048434A1 (en) * | 2007-10-11 | 2009-04-16 | Agency For Science, Technology And Research | A dialogue system and a method for executing a fully mixed initiative dialogue (fmid) interaction between a human and a machine |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9177551B2 (en) * | 2008-01-22 | 2015-11-03 | At&T Intellectual Property I, L.P. | System and method of providing speech processing in user interface |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8296144B2 (en) * | 2008-06-04 | 2012-10-23 | Robert Bosch Gmbh | System and method for automated testing of complicated dialog systems |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8874443B2 (en) * | 2008-08-27 | 2014-10-28 | Robert Bosch Gmbh | System and method for generating natural language phrases from user utterances in dialog systems |
US20100070360A1 (en) * | 2008-09-13 | 2010-03-18 | At&T Intellectual Property I, L.P. | System and method for creating a speech search platform for coupons |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20100217603A1 (en) * | 2009-02-26 | 2010-08-26 | Hammond Daniel D | Method, System, and Apparatus for Enabling Adaptive Natural Language Processing |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8914289B2 (en) * | 2009-12-16 | 2014-12-16 | Symbol Technologies, Inc. | Analyzing and processing a verbal expression containing multiple goals |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10026394B1 (en) * | 2012-08-31 | 2018-07-17 | Amazon Technologies, Inc. | Managing dialogs on a speech recognition platform |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US10235358B2 (en) * | 2013-02-21 | 2019-03-19 | Microsoft Technology Licensing, Llc | Exploiting structured content for unsupervised natural language semantic parsing |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和*** |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的***和方法 |
US20140379334A1 (en) * | 2013-06-20 | 2014-12-25 | Qnx Software Systems Limited | Natural language understanding automatic speech recognition post processing |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9721570B1 (en) | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
US10073840B2 (en) | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
US9870356B2 (en) | 2014-02-13 | 2018-01-16 | Microsoft Technology Licensing, Llc | Techniques for inferring the unknown intents of linguistic items |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US20170147286A1 (en) * | 2015-11-20 | 2017-05-25 | GM Global Technology Operations LLC | Methods and systems for interfacing a speech dialog with new applications |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10417346B2 (en) | 2016-01-23 | 2019-09-17 | Microsoft Technology Licensing, Llc | Tool for facilitating the development of new language understanding scenarios |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
WO2017200078A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US11222633B2 (en) * | 2016-05-20 | 2022-01-11 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
EP3503091A4 (en) * | 2016-08-17 | 2019-08-07 | Sony Corporation | DIALOGUE CONTROL DEVICE AND METHOD |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10431202B2 (en) * | 2016-10-21 | 2019-10-01 | Microsoft Technology Licensing, Llc | Simultaneous dialogue state management using frame tracking |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10373515B2 (en) | 2017-01-04 | 2019-08-06 | International Business Machines Corporation | System and method for cognitive intervention on human interactions |
US10235990B2 (en) | 2017-01-04 | 2019-03-19 | International Business Machines Corporation | System and method for cognitive intervention on human interactions |
US10318639B2 (en) | 2017-02-03 | 2019-06-11 | International Business Machines Corporation | Intelligent action recommendation |
US10120862B2 (en) * | 2017-04-06 | 2018-11-06 | International Business Machines Corporation | Dynamic management of relative time references in documents |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10490185B2 (en) | 2017-09-27 | 2019-11-26 | Wipro Limited | Method and system for providing dynamic conversation between application and user |
US10431219B2 (en) * | 2017-10-03 | 2019-10-01 | Google Llc | User-programmable automated assistant |
US10991369B1 (en) * | 2018-01-31 | 2021-04-27 | Progress Software Corporation | Cognitive flow |
US11030400B2 (en) * | 2018-02-22 | 2021-06-08 | Verizon Media Inc. | System and method for identifying and replacing slots with variable slots |
US10783879B2 (en) * | 2018-02-22 | 2020-09-22 | Oath Inc. | System and method for rule based modifications to variable slots based on context |
CN108922531B (zh) * | 2018-07-26 | 2020-10-27 | 腾讯科技(北京)有限公司 | 槽位识别方法、装置、电子设备及存储介质 |
US11275902B2 (en) | 2019-10-21 | 2022-03-15 | International Business Machines Corporation | Intelligent dialog re-elicitation of information |
WO2022134110A1 (zh) * | 2020-12-26 | 2022-06-30 | 华为技术有限公司 | 一种语音理解方法及装置 |
US11711469B2 (en) * | 2021-05-10 | 2023-07-25 | International Business Machines Corporation | Contextualized speech to text conversion |
CN113342956B (zh) * | 2021-06-29 | 2022-04-01 | 神思电子技术股份有限公司 | 一种用于多轮对话中相同槽值填充的方法 |
US11463387B1 (en) | 2021-07-23 | 2022-10-04 | Fmr Llc | Capturing and utilizing context data in virtual assistant communication sessions |
US11379446B1 (en) | 2021-07-23 | 2022-07-05 | Fmr Llc | Session-based data storage for chat-based communication sessions |
US11734089B2 (en) | 2021-10-11 | 2023-08-22 | Fmr Llc | Dynamic option reselection in virtual assistant communication sessions |
US11763097B1 (en) | 2022-08-02 | 2023-09-19 | Fmr Llc | Intelligent dialogue recovery for virtual assistant communication sessions |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914590A (en) * | 1988-05-18 | 1990-04-03 | Emhart Industries, Inc. | Natural language understanding system |
US6173266B1 (en) * | 1997-05-06 | 2001-01-09 | Speechworks International, Inc. | System and method for developing interactive speech applications |
US6219643B1 (en) * | 1998-06-26 | 2001-04-17 | Nuance Communications, Inc. | Method of analyzing dialogs in a natural language speech recognition system |
US6314402B1 (en) * | 1999-04-23 | 2001-11-06 | Nuance Communications | Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system |
US6385584B1 (en) * | 1999-04-30 | 2002-05-07 | Verizon Services Corp. | Providing automated voice responses with variable user prompting |
JP2003505778A (ja) * | 1999-05-28 | 2003-02-12 | セーダ インコーポレイテッド | 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化 |
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
JP2002023783A (ja) | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
US7143040B2 (en) * | 2000-07-20 | 2006-11-28 | British Telecommunications Public Limited Company | Interactive dialogues |
US20040085162A1 (en) * | 2000-11-29 | 2004-05-06 | Rajeev Agarwal | Method and apparatus for providing a mixed-initiative dialog between a user and a machine |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
EP1255190A1 (en) * | 2001-05-04 | 2002-11-06 | Microsoft Corporation | Interface control |
US6887690B2 (en) | 2001-06-22 | 2005-05-03 | Pe Corporation | Dye-labeled ribonucleotide triphosphates |
US7246062B2 (en) * | 2002-04-08 | 2007-07-17 | Sbc Technology Resources, Inc. | Method and system for voice recognition menu navigation with error prevention and recovery |
AU2002950336A0 (en) * | 2002-07-24 | 2002-09-12 | Telstra New Wave Pty Ltd | System and process for developing a voice application |
-
2004
- 2004-07-06 US US10/885,934 patent/US7228278B2/en active Active
-
2005
- 2005-07-06 ES ES05768313.8T patent/ES2526698T3/es active Active
- 2005-07-06 WO PCT/US2005/023844 patent/WO2006014432A2/en active Application Filing
- 2005-07-06 ES ES10190283.1T patent/ES2621808T3/es active Active
- 2005-07-06 EP EP10190283.1A patent/EP2282308B1/en not_active Not-in-force
- 2005-07-06 EP EP05768313.8A patent/EP1779376B1/en not_active Not-in-force
- 2005-07-06 JP JP2007520443A patent/JP2008506156A/ja not_active Withdrawn
-
2007
- 2007-04-17 US US11/787,763 patent/US7747438B2/en active Active
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101522837B1 (ko) * | 2010-12-16 | 2015-05-26 | 한국전자통신연구원 | 대화 방법 및 이를 위한 시스템 |
CN104299623A (zh) * | 2013-07-15 | 2015-01-21 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和*** |
CN104299623B (zh) * | 2013-07-15 | 2017-09-29 | 国际商业机器公司 | 语音应用中用于自动确认和消歧模块的方法和*** |
JP2017517776A (ja) * | 2014-10-29 | 2017-06-29 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 対話処理方法、対話管理システム、およびコンピュータ機器 |
WO2016136207A1 (ja) * | 2015-02-27 | 2016-09-01 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム |
WO2016136208A1 (ja) * | 2015-02-27 | 2016-09-01 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 |
JP7000096B2 (ja) | 2017-09-28 | 2022-01-19 | 株式会社東芝 | 対話処理装置および対話処理システム |
JP2019061620A (ja) * | 2017-09-28 | 2019-04-18 | 株式会社東芝 | 対話処理装置および対話処理システム |
WO2019065647A1 (ja) * | 2017-09-28 | 2019-04-04 | 株式会社東芝 | 対話処理装置および対話処理システム |
JP2022515005A (ja) * | 2018-10-10 | 2022-02-17 | 華為技術有限公司 | 人間とコンピュータとの相互作用方法および電子デバイス |
JP7252327B2 (ja) | 2018-10-10 | 2023-04-04 | 華為技術有限公司 | 人間とコンピュータとの相互作用方法および電子デバイス |
US11636852B2 (en) | 2018-10-10 | 2023-04-25 | Huawei Technologies Co., Ltd. | Human-computer interaction method and electronic device |
JP2022534242A (ja) * | 2019-05-31 | 2022-07-28 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
JP7343087B2 (ja) | 2019-05-31 | 2023-09-12 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 音声認識の方法、装置、およびデバイス、並びにコンピュータ可読記憶媒体 |
KR20230108346A (ko) * | 2020-12-08 | 2023-07-18 | 구글 엘엘씨 | 부분 가설들에 기초한 스트리밍 액션 이행 |
KR102651438B1 (ko) * | 2020-12-08 | 2024-03-25 | 구글 엘엘씨 | 부분 가설들에 기초한 스트리밍 액션 이행 |
KR102666928B1 (ko) * | 2023-09-20 | 2024-05-20 | (주)뮤자인 | 챗봇을 이용한 컨텐츠 관리 시스템 |
Also Published As
Publication number | Publication date |
---|---|
EP1779376B1 (en) | 2014-09-17 |
EP2282308B1 (en) | 2017-02-22 |
EP1779376A2 (en) | 2007-05-02 |
WO2006014432A3 (en) | 2007-01-04 |
ES2526698T3 (es) | 2015-01-14 |
ES2621808T3 (es) | 2017-07-05 |
US20070255566A1 (en) | 2007-11-01 |
US20060009973A1 (en) | 2006-01-12 |
EP1779376A4 (en) | 2008-09-03 |
US7747438B2 (en) | 2010-06-29 |
WO2006014432A2 (en) | 2006-02-09 |
EP2282308A1 (en) | 2011-02-09 |
US7228278B2 (en) | 2007-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7228278B2 (en) | Multi-slot dialog systems and methods | |
US10163440B2 (en) | Generic virtual personal assistant platform | |
US6173266B1 (en) | System and method for developing interactive speech applications | |
KR101042119B1 (ko) | 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체 | |
KR101066741B1 (ko) | 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체 | |
US8064573B2 (en) | Computer generated prompting | |
US8457973B2 (en) | Menu hierarchy skipping dialog for directed dialog speech recognition | |
US20050234727A1 (en) | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response | |
EP1569202A2 (en) | System and method for augmenting spoken language understanding by correcting common errors in linguistic performance | |
US20060287868A1 (en) | Dialog system | |
JP2007524928A (ja) | 知的音声アプリケーション実行のためのマルチプラットフォーム対応推論エンジンおよび汎用文法言語アダプタ | |
EP1639422A2 (en) | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an vxml-compliant voice application | |
US7461344B2 (en) | Mixed initiative interface control | |
US20060031853A1 (en) | System and method for optimizing processing speed to run multiple dialogs between multiple users and a virtual agent | |
US7853451B1 (en) | System and method of exploiting human-human data for spoken language understanding systems | |
McTear | Rule-Based Dialogue Systems: Architecture, Methods, and Tools | |
JP7132206B2 (ja) | 案内システム、案内システムの制御方法、およびプログラム | |
Paternò et al. | Deriving Vocal Interfaces from Logical Descriptions in Multi-device Authoring Environments | |
Thymé-Gobbel et al. | Conveying Reassurance with Confidence and Confirmation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081007 |