JP6667504B2 - オーファン発話検出システム及び方法 - Google Patents

オーファン発話検出システム及び方法 Download PDF

Info

Publication number
JP6667504B2
JP6667504B2 JP2017510492A JP2017510492A JP6667504B2 JP 6667504 B2 JP6667504 B2 JP 6667504B2 JP 2017510492 A JP2017510492 A JP 2017510492A JP 2017510492 A JP2017510492 A JP 2017510492A JP 6667504 B2 JP6667504 B2 JP 6667504B2
Authority
JP
Japan
Prior art keywords
domain
utterance
orphan
language understanding
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017510492A
Other languages
English (en)
Other versions
JP2017534941A5 (ja
JP2017534941A (ja
Inventor
トゥール,ゴカーン
デオラス,アヌープ
ハッカニ−トゥール,ディレク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017534941A publication Critical patent/JP2017534941A/ja
Publication of JP2017534941A5 publication Critical patent/JP2017534941A5/ja
Application granted granted Critical
Publication of JP6667504B2 publication Critical patent/JP6667504B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

スマートフォン及び他のデバイスが、仮想パーソナルアシスタント等の対象言語理解対話システム(targeted language understanding dialog systems)を、コンシューマに広く利用可能にしている。対象言語理解対話システムは、限られた数の選択された主題領域(すなわち、タスクドメイン)におけるユーザ入力の深い理解を提供する。このようなタスクドメインの外では、対象言語理解対話システムは、ユーザ入力を処理するために、浅い理解又は一般化された技術にフォールバックする。一般的なフォールバックは、ドメイン外ユーザ入力を、一般ウェブ検索(general web search)の対象として処理する。
ユーザは、対象言語理解対話システムの能力及び制限を必ずしも認知しているわけではない。例えば、スマートフォン上の仮想パーソナルアシスタントは、電話をかけること、テキストメッセージ及び電子メールを送信すること、アラーム及びリマインダを設定すること、ノート及びカレンダーエントリを作成すること、及び、天気又は場所についての情報を得ること等のタスクに関して仮想パーソナルアシスタントがユーザを支援することを許容する、通話、ショートメッセージサービス(SMS)、電子メール、カレンダー、アラーム、リマインダ、ノート、天気、及び場所のタスクドメインに制限され得る。スマートフォンは、他のアクティビティ(例えば、音楽再生)が可能であるので、ユーザは、仮想パーソナルアシスタントがこのような他のアクティビティに関しても支援できるとみなしてしまうことがある。例えば、ユーザは、ユーザの音楽ライブラリから選択される音楽を聞くことを期待して、仮想パーソナルアシスタントが「エアロスミスの歌を再生する」ことを要求するかもしれない。音楽タスクドメインがなければ、ユーザのこの要求は理解されない。ユーザは、要求した音楽を聞く代わりに、ウェブページのリストを得る。ユーザは、仮想パーソナルアシスタントが音楽タスクをどのように処理するかを知らないことを認識せずに、この要求を繰り返す且つ/又は言い直すことを試みるかもしれない。同時に、ユーザは、仮想パーソナルアシスタントのこのフォールバック挙動を認識し、フォールバックウェブ検索結果を得ることを期待して、単純なキーワード(例えば、「最低料金」)を一般に使用する。
仮想パーソナルアシスタントの観点からは、音楽を再生する要求又はキーワードは、タスクドメインのうちのいずれによってもカバーされていないので、これらがウェブ検索クエリとして処理される。しかしながら、ユーザエクスペリエンスは、非常に異なる。ユーザの観点からは、音楽を再生する要求に応じてウェブ検索結果を得ることは、ユーザの期待を満足させないので、苛立たしいものである。一方、ウェブ検索結果は、ユーザが期待するものである場合には、満足のいくものである。技術的問題は、ウェブ検索が適切である場合のウェブ検索クエリと、対象言語理解対話システムに向けられる要求であるが、ウェブ検索結果を返す以外の結果をもたらすよう意図されている、対象言語理解対話システムのタスクドメインのうちのいずれによってもカバーされていない要求と、を区別することである。本発明がなされたのは、これらの検討事項及び他の検討事項に対してである。比較的具体的な問題が説明されたが、本明細書で開示される態様は、この背景技術において特定される具体的な問題を解決することに限定されるべきではない。
この発明の概要は、発明を実施するための形態のセクションにおいて以下でさらに説明されるコンセプトのうち選択されたコンセプトを紹介するために提供される。この発明の概要は、特許請求される主題の主要な特徴又は必要不可欠な特徴を特定することを意図するものではないし、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。
オーファン(orphaned)発話検出システム及び付随する方法の態様は、対象言語理解対話システムからのドメイン外発話を処理して、ドメイン外発話が、一般ウェブ検索を実行すること等のフォールバック処理がウェブ検索により満たされる可能性が低い場合には対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているかどうかを判定するオーファン(orphan)検出器を含む。オーファン検出器を組み込んでいる対話システムは、処理される1以上の発話を受信する。発話が、対象理解コンポーネント(targeted understanding component)のタスクドメインのうちのいずれかによってカバーされているかどうかに基づいて、ドメイン分類器を使用して、発話が、ドメイン内又はドメイン外として分類される。素性(特徴)(features)が、発話を分類及び理解する際に使用するために、発話から抽出される。素性抽出は、語彙解析(lexical parsing)動作、品詞タグ付け(part-of-speech tagging)動作、構文(統語)解析(syntactic parsing)動作、及び意味解析(semantic parsing)動作のうちの1以上を含み得る。
オーファン判定は、抽出された素性に基づいて、ドメイン外発話がオーファンであるかどうかを識別する。使用される1つの語彙素性は、単純に、発話からの単語nグラムである。オーファン検出器は、内容よりも構造に依存するので、構文素性がまた、オーファン分類器により使用され得る。オーファン判定において使用するためのベースライン構文素性は、品詞タグnグラムである。意味素性がまた、オーファン分類器モデルにおいて有用である。述語と項の集合との存在についてチェックすることは、高適合率オーファン分類のための1つの意味素性を与える。オーファンは、一般ウェブ検索クエリと同じようには処理されない。これは、向上したユーザエクスペリエンスを提供する。ユーザエクスペリエンスが向上するのは、対話システムがユーザの要求を満足させることができるためではなく、ユーザの要求を満足させることができないときでも、対話システムが、意味のある応答を提供するためである。
本開示のさらなる特徴、態様、及び利点が、添付の図面を参照することにより、より良く理解されるようになる。添付の図面において、詳細をより明瞭に示すために、要素は縮尺通りではなく、同様の参照符号は、複数の図面を通して、同様の要素を示す。
オーファン検出器を使用する対象言語理解対話システムの態様を示すシステム図。 オーファンを検出して処理する方法の態様を示す高レベルフローチャート。 構成要素に基づく構文構造解析の例を示す図。 図3において構文解析された文に適用される意味解析の例を示す図。 オフライン使用シナリオにおいて、オーファンを用いた、新たなタスクドメイン(すなわち、カバーされていないタスクドメイン)のための意味モデルの教師なしトレーニングの方法の態様を示す高レベルフローチャート。 本発明の態様を実施するのに適しているコンピューティングデバイスの物理コンポーネントを示すブロック図。 本発明の態様を実施するのに適しているモバイルコンピューティングデバイスを示す図。 本発明の態様を実施するのに適しているモバイルコンピューティングデバイスについてのアーキテクチャを示すブロック図。 本発明の態様が実施され得る分散コンピューティングシステムの簡略ブロック図。
本発明の様々な態様が、本明細書の一部を形成し本発明の特定の例示的な態様を示す添付の図面を参照して、以下でより詳細に説明される。しかしながら、本発明は、多くの異なる形態で実施可能であり、本明細書に記載される態様に限定されるものとして解釈されるべきではない。そうではなく、そのような態様は、本開示が明確かつ十分であるとともに、様々な態様の範囲を当業者に完全に伝えるように、提供される。態様は、方法、システム、又はデバイスとして実施され得る。したがって、実装は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組合せを使用して実現され得る。したがって、以下の詳細な説明は、限定的に解釈されるべきではない。
オーファン検出器及び付随する方法の態様が、本明細書で説明され、添付の図面に示される。オーファン検出器は、対象言語理解対話システムからのドメイン外発話を処理して、ドメイン外発話が、一般ウェブ検索を実行すること等のフォールバック処理がウェブ検索により満たされる可能性が低い場合には対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているかどうかを判定する。そのような発話は、タスクドメインのうちのいずれによっても又はフォールバック処理によっても適切に処理されないので、オーファンと呼ばれる。オーファン検出器は、内容ではなく発話の構造に主としてフォーカスすることにより、オーファンを、ウェブ検索クエリ及び他のドメイン外発話と区別する。オーファン検出器により検出されたオーファンは、対象言語理解対話システムに対するユーザエクスペリエンスを向上させるために、オンライン及びオフラインの両方で使用され得る。オーファン検出器はまた、ウェブ検索エンジンクエリログから、構造的に類似するクエリ又は文を取り出すために使用され得る。
図1は、オーファン検出器を使用する対象言語理解対話システムの態様を示すシステム図である。対話システム100は、オーファン検出器102及び対象理解コンポーネント104を含む。対話システムは、単一のコンピューティングデバイスを使用するローカルアーキテクチャにおいて実装されてもよいし、図示されるように、限定ではないが、サーバ108と通信するクライアントデバイス106等の1以上のコンピューティングデバイスを使用する分散アーキテクチャにおいて実装されてもよい。クライアントデバイス106及びサーバ108は、サーバコンピュータ、デスクトップコンピュータ、ラップトップ、タブレットコンピュータ、スマートフォン、スマートウォッチ、及びスマート機器を含むがこれらに限定されるものではない様々なコンピューティングデバイスを使用して実装され得る。分散コンポーネント群は、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネット等であるがこれらに限定されるものではないネットワークを介して通信することができる。
対話システム100は、多種多様な入力モダリティ及び出力モダリティを介してユーザ112とインタラクトするためのユーザインタフェース110を提供する。入力モダリティ及び出力モダリティのタイプ及び数は、クライアントデバイス106のハードウェアに依存する。適切な入力モダリティ及び出力モダリティの例は、発話、テキスト、手書き、タッチ、及びジェスチャを含むが、これらに限定されるものではない。クライアントデバイス106は、1以上の入力デバイス116を介して、ユーザ112からの会話型入力114を受信し、1以上の出力デバイス120を介して、ユーザ112による利用のために会話型出力をレンダリングする。適切な入力デバイスの例は、マイクロフォン、タッチスクリーン、カメラ、スキャナ、物理キーボード、物理キーパッド、仮想キーボード、及び仮想キーパッドを含むが、これらに限定されるものではない。適切な出力デバイスの例は、スピーカ、ディスプレイスクリーン、及びプロジェクタを含むが、これらに限定されるものではない。
一例として、コンテキストを提供するために、対話システム100の態様は、ユーザからの発話に応答するマルチモーダル仮想パーソナルアシスタント(VPA)として説明され得る。しかしながら、オーファン検出器102は、多種多様な対象言語理解対話システムとともに使用することができ、仮想パーソナルアシスタントとともに使用されることに限定されるべきではない。便宜上、本明細書で使用される場合、「発話」という用語は、モードに関係なく、対話システム100への任意の会話型入力を指す。特定のモダリティ又は会話型入力への言及又はこれらの説明は、他のモダリティを実施するための対応するハードウェア変更及び/又はソフトウェア変更をともにする他のモダリティ及び会話型入力を広く包含するものとして理解されるべきである。
非テキスト発話を受信する場合、対話システム100は、コンピュータ読み取り可能な形式ではない発話を、入力タイプに合わせた適切な解読(decoding)技術を使用して処理するためのコンピュータ読み取り可能な形式に変換する1以上の自動発話認識器122を含み得る。適切な自動発話認識器122の例は、音声認識器、ジェスチャ認識器、光学式文字認識器、及び手書き認識器を含むが、これらに限定されるものではない。自動発話認識器122の出力は、対象理解コンポーネント104に提供される。
素性抽出器124は、自動発話認識器122の出力から素性を抽出する。素性は、オーファン検出器102及び/又は対象理解コンポーネント104による使用のために抽出され得る。オーファン検出器102のために抽出される素性のタイプは、語彙素性、品詞タグ素性、構文素性、及び意味素性を含む。
対象理解コンポーネント104は、ドメイン分類器126及び言語理解コンポーネント128を含む。ドメイン分類器126は、1以上のドメインモデルを使用して、発話を、1以上のサポートされているタスクドメインにマッピングしようと試みる。サポートされているタスクドメインのうちの1つによりカバーされている発話は、「ドメイン内」である。言語理解コンポーネント128は、コンピュータ読み取り可能なテキストを、対話システムにより処理され得る意味表現に分解して(disassemble)解析することにより、発話を、意味のある表現に変換する。ほとんどのマルチドメイン対話システムにおいて、対象意味処理は、全てのタスクドメインのためのグローバル文法(global grammar)又は統計モデルを使用する代わりに、各タスクドメインに固有のドメインモデルを使用して、タスクドメインごとに実行される。対象理解を用いることは、システム設計者が、対話システムの機能にフォーカスし、ドメイン内発話の深い理解を提供することを可能にする。
ドメイン外発話は、バックオフ理解(backoff understanding)を介して処理される。前述したように、対象言語理解対話システムにより用いられるバックオフ理解の典型的な例は、全てのドメイン分類器により棄却(リジェクト)された発話を、一般ウェブ検索クエリとして処理することである。仮想パーソナルアシスタント及び他の対象言語理解対話システムにおけるバックオフ理解はまた、factoid(ファクトイド)型質問検出器130及び/又は雑談(チットチャット)(chit-chat)検出器132を含み得る。
factoid型質問は、固有表現(named entity)についての単純な事実を求める質問である。factoid型質問は、しばしば、who型質問、what型質問、when型質問、where型質問、why型質問、又はhow型質問と表現される。factoid型質問の一例は、「What is the tallest mountain in the United States?」である。
雑談は、おしゃべり(small talk)の性質の何気ない発話を指す。仮想パーソナルアシスタントを用いると、雑談は、典型的には、半分たわいない又は半私的な性質の質問を伴う。仮想パーソナルアシスタントを、少なくともいくらか人間のように思わせるために、そのような質問に対する応答が、仮想パーソナルアシスタントに提供され得る。雑談の例は、「where are you from」や「tell me a joke」等の発話を含む。本質的に、雑談は、仮想パーソナルアシスタント又は他の対象言語理解対話システムのパーソナリティを決めるのに役立つ非生産的なインタラクションを伴う。
オーファン検出器102は、オーファンを検出することにより、バックオフ理解を向上させる。本明細書で使用される場合、オーファンは、対象言語理解対話システムのタスクドメインのうちのいずれによってもカバーされていない(すなわち、ドメイン外発話)と認識される非factoid型で明瞭で具体的な意図を有する要求を指す。したがって、オーファンは、適切なタスクドメインをもって対象言語理解対話システムによりカバーされ得る要求であって、一般ウェブ検索を実行することによっては満足させることができない要求を表す。
仮想パーソナルアシスタント等の、ユーザ発話に対する同時応答を提供するオンラインシステムにおいて、オーファン検出器102は、対話システム100が、特定のユーザエクスペリエンスを向上させる適切なやり方でオーファンにインテリジェントに応答することを可能にする。例えば、オーファン検出器102により提供される情報は、ユーザ発話がオーファンであるときに無反応な一般ウェブ検索を返すのを避けるとともに、適切な応答を示すように、オンラインで使用され得る。オフライン使用では、オーファン検出器102は、対象理解コンポーネント104の機能を向上させるための価値のある情報を提供し、それにより、対話システム100に対する全般的なユーザエクスペリエンスを向上させる。例えば、オーファン検出器102は、新たなタスクドメインを迅速に追加して対象言語理解対話システムの機能を拡張するように、又は、既存のドメインモデルを向上させてオーファンを処理するように、オフラインで使用され得る。
識別分類器が、オーファン検出器102における使用によく適している。なぜならば、識別分類器は、生成分類器(例えば、単純ベイズ)と比較して、前の確率分布の影響を受けにくい傾向にあるからである。適切な識別分類器の一例は、サポートベクターマシン(SVM)である。サポートベクターマシンは、通常、大きな素性空間を伴うタスクについて、他の二値分類法より性能が優れている。オーファン検出素性空間は、単語及び品詞タグnグラムの全てを含むので、非常に大きい。
オーファン検出器分類器モデルは、頻繁に生じるウェブ検索クエリの集合と、対話コーパスから対話システムに向けられた発話の集合と、を含むトレーニングデータを使用して構築され得る。ウェブ検索クエリの集合は、ネガティブトレーニングクラスを提供するのに対し、対話システムに向けられた発話の集合は、ポジティブトレーニングクラスを提供する。対話システムに向けられた発話の集合からの発話は、手動で注釈付けされ得る。対話システムに向けられた発話の集合は、対話システムに向けられるべきと判定されたドメイン外発話及び/又はドメイン内発話を含み得る。オーファン検出モデルにおいて使用される素性集合に応じて、オーファン検出器は、語彙解析器、品詞タグ付け器、構文解析器、及び意味解析器のうちの1以上を使用することができる。
インタラクション管理器134は、対象理解コンポーネント104の出力に対して作用する。インタラクション管理器134は、対話(すなわち、会話)の流れに最終的に関与する、対話システムのステートフルコンポーネントである。インタラクション管理器134は、現在の対話状態を反映するように対話セッション136を更新することにより、会話を追跡し、会話の流れを管理する。対話セッション136は、ユーザと対話システムとの間のインタラクションのありとあらゆる態様を記憶することができるデータ集合である。対話セッションにより記憶される対話状態情報のタイプ及び量は、対話システムの設計及び複雑度に基づいて変わり得る。例えば、ほとんどの対話システムにより記憶される基本的な対話状態情報は、発話履歴、ユーザからの最後のコマンド、及び最後のマシンアクション、並びに現在の対話状態を含むが、これらに限定されるものではない。インタラクション管理器134は、現在の対話状態に基づいて、構造化されている又は構造化されていない情報ソース(例えば、ナレッジベース、連絡先リスト等)から情報を取得すること等であるがこれに限定されるものではない適切なマシンアクションを実行する。
応答生成器138は、対話システムの応答を生成する。応答生成器138は、ユーザへの提示のために応答を自然(すなわち人間)音テキストに変換する自然言語生成コンポーネント140を含み得る。応答生成器138はまた、応答を音声に変換し、対話システムがユーザと言葉でインタラクトすることを可能にするテキストツースピーチコンポーネント142を含み得る。応答は、クライアントデバイスの出力デバイスのうちの1以上を介してレンダリングされる。
図2は、オーファンを検出して処理する方法の態様を示す高レベルフローチャートである。方法200は、入力動作202を含み得、入力動作202において、対話システムは、処理される1以上の入力を受信する。オンライン使用シナリオにおいて、入力は、通常、ユーザからリアルタイムに受信される個々の発話である。必要な場合には、認識動作204が、発話を、オーファン検出器102により使用可能な形式に変換する。例えば、認識動作204は、音声認識を発話に適用し、音声を解読してテキストにすることを含み得る。オフライン使用シナリオにおいて、入力は、発話の既存のコーパスからのものであることもあるし、対話システムの多数のユーザ又はウェブ検索エンジンクエリログからのクエリからのものであることもある。
ドメイン分類動作206は、発話が、対象理解コンポーネント104のタスクドメインのうちのいずれかによってカバーされているかどうかに基づいて、発話を、ドメイン内又はドメイン外として分類する。ドメイン分類動作206は、各ドメインが、発話が当該ドメインに属するかどうかを判定する関連付けられた分類器を有する「受け入れ(acceptance)」アプローチ、最上位レベル分類器が発話についてのドメインを判定する「トリアージ(triage)」アプローチ、又はこれらのアプローチの組合せを使用することができる。
ドメイン分類は、一般には、包含(inclusion)(すなわち、定義されているタスクドメインによりカバーされている発話を検出すること)の観点で表現されるが、本発明の態様は、ドメイン外発話の処理にフォーカスする。したがって、本説明及び/又は特許請求の範囲において、ドメイン外発話の検出及び/又は分類について言及され得る。発話がドメイン外発話であるという判定は、単に、対象言語理解対話システムのドメインに包含されるかについて発話をテストすることにより得られた結果の否定により達成され得る。すなわち、対象言語理解対話システムのいかなるドメインについても包含基準を満たさない発話は、ドメイン外発話であると判定される。
ドメイン分類動作206の後、ドメイン内発話理解動作208及びドメイン内発話行為動作210が実行される。ドメイン内発話理解動作208は、ドメイン内発話の意図(すなわち意味)を判定する。ドメイン内発話理解動作208により意味を割り当てる態様は、項(argument)抽出、スロットフィリング、及び他の意味処理機能・アプローチを含み得るが、これらに限定されるものではない。
ドメイン内発話行為動作210は、現在の対話状態に基づいて、ドメイン内発話の意図を達成するものとして決定された対話行為(dialog act)を実行する。例えば、ドメイン内発話行為動作210は、項において指定されている日時にアラームを設定するように、アラームアプリケーションとインタフェースをとったり、項において指定されている人物に電話をかけるように、電話アプリケーションとインタフェースをとったりすることができる。ドメイン内発話の処理のためのドメイン固有のルール又は命令は、通常、タスクドメイン定義の一部として指定される。
一般に、ドメイン内発話インタラクションは、使用されているデバイス、環境、及びアプリケーションに合わせて調整される。スマートテレビジョン、ケーブルボックス、又は、インターネットテレビジョンデバイス若しくはインターネットテレビジョンアプリケーションについてのドメイン内タスクは、ストリーミングビデオコンテンツを再生すること、チャンネルを変更すること、及びボリュームを調整することを含み得る。例えば、汎用コンピューティングデバイスにおいて、仮想パーソナルアシスタントについてのドメイン内タスクは、リマインダを管理すること、アラームを管理すること、フライト予約を行うこと、及びホテル予約を行うことを含み得る。スマートフォンにおいて、仮想パーソナルアシスタントについてのドメイン内タスクは、セルラキャリアネットワークを介して電話をかけること及びテキストメッセージを送信することに拡張され得る。
素性抽出動作212は、発話を分類及び理解するために使用される素性を抽出する。素性抽出は、語彙解析動作214、品詞タグ付け動作216、構文解析動作218、及び意味解析動作220のうちの1以上を含み得る。素性抽出はまた、ドメイン外発話を、雑談又はfactoid型質問として分類し、ドメイン内発話を分類するのに有用な素性を抽出するために用いられ得る。ドメイン内発話及びドメイン外発話についての素性抽出は、別々に生じてもよいし、ドメイン分類動作204の前に生じる組合せ動作において生じてもよい。
方法200は、対応するドメイン外発話を検出して処理するためのfactoid型質問処理動作222及び/又は雑談処理動作224を任意的に含んでもよい。
オーファン判定226は、ドメイン外発話がオーファンであるか否かを識別する。オーファンを検出することは、驚くほど難しいタスクである。オーファン判定226は、発話の具体的な意図(すなわち、発話の内容)を理解するのではなく、発話の意図がどのように表現されているか(すなわち、発話の構造)にフォーカスする。例えば、コマンドとして構造化されているドメイン外発話(例えば、「send email to mom」)は、一般ウェブ検索に対するキーワードであるというよりも、具体的ではあるがサポートされていないアクションを実行するための、対話システムに対する要求である可能性が高い。同様に、固有表現又は名詞句のみを含み他に別のもの(例えば、hotel)を含まない発話は、ウェブ検索に向けられるキーワードである可能性がより高いが、いくつかの例(例えば、「hotel reservation」)は、曖昧なことがある。
既知のタスクドメインについてのドメイン分類器からの信頼度スコアは、特に有用であるというわけではない。なぜならば、オーファン判定226への入力は、カバーされているタスクドメインにより棄却されたドメイン外発話であるからである。
線形カーネルSVM分類タスクは、形式上次のように定義され得る:対象言語理解対話システムに向けられた発話(例えば、VPAに向けられた要求)のサンプルVPA={(x,−1),...,(x,−1)}と、ウェブ検索クエリのサンプルQ={x,1},...,(xm+1,1)}と、から抽出された素性を用いて蓄積されたトレーニングデータDを所与として、線形カーネルSVM分類タスクは、
Figure 0006667504
である超平面を見つけ、最大マージンをもってこれらのクラスを分割することとして、形式上定義され得る。
1つの語彙素性は、単純に、発話からの単語nグラムである。複数のドメインをカバーする発話を使用してオーファン分類器をトレーニングすることは、ドメイン非依存の語句(例えば、「could you please show me」や「what is the」)に対して、ドメイン固有の単語(例えば、レストランドメインにおける「cuisine」や「meal」)の影響を効果的に低減させる。語彙モデルは、内容語との語彙の重なりがほとんどない場合でも、オーファンをウェブ検索クエリと区別するのに適している。なぜならば、ドメイン内指標句(indicator phrases)(例えば、「can you」や「please」)が、良好なオーファン分類素性として機能するからである。語彙素性のみを用いてトレーニングされたオーファン分類器を使用して得られた結果が、比較のための重要なベースラインを提供する。表1は、VPAに向けられた要求及びウェブ検索クエリにおいて現れた一人称単語の相対度数を比較したものである。
Figure 0006667504
オーファン検出器は、内容よりも構造に依存するので、構文素性がまた、オーファン分類器により使用され得る。オーファン判定において使用するためのベースライン構文素性は、品詞タグnグラムである。発話における最初の単語として現れる所定の品詞は、その発話がオーファンであるか否かについて、良好な指標を提供する。例えば、最初の単語の品詞が、固有名詞である場合よりも、法助動詞(例えば、「could」)又は原形動詞(例えば、「play」)である場合の方が、発話は、オーファンである可能性が高い。同様に、発話がオーファンである可能性が高いという良好な指標である他の品詞は、発話の最初の単語として現れる主格人称代名詞(例えば、「I」)又は所有格人称代名詞(例えば、「my」)を含む。
表2は、VPAに向けられた要求及びウェブ検索クエリにおいて現れた最初の単語についての最頻出品詞タグの相対度数を比較したものである。確認できるように、ウェブ検索クエリよりも要求の方が、発話の最初の単語として動詞を有する可能性が著しく高い。
Figure 0006667504
図3は、構成要素に基づく構文構造解析の例を示している。「find brightness settings」という単語群は、動詞句(VP)及び名詞句(NP)から構成される文(S)を形成している。名詞句は、「settings」という複数形名詞(NNS)と、これに結合された「brightness」という単数形名詞(NN)と、から構成される。動詞句は、「find」という動詞(VB)と、その目的語としての役割を果たす「brightness settings」という名詞句と、から構成される。構文解析木の構造は、S(VP(NP))という構文形状素性(syntactic shape feature)として表現され得、これは、VPAに向けられた最頻出形状のうちの1つである。構文解析木形状は、オーファン分類器モデルにおいて有用な別の構文素性である。実際、ウェブ検索クエリよりも、VPAに向けられた要求において、著しく多い構文解析木形状が現れている。VPAに向けられた要求についての多数の構文解析木形状は、適合率よりも再現率に関して、構文解析木形状を有用なものにする。
オーファン分類器モデルにおいて、意味素性も有用である。必須ではないが、ドメイン内発話についての典型的な意味フレームは、意図を含み、意図は、一般に、述語/項(例えば、「make/reservation」、「buy/ticket」、又は「set/alarm」)の形である。述語と項の集合との存在についてチェックすることは、高適合率オーファン分類のための1つの意味素性を与える。
意味解析は、汎用ナレッジベース意味解析器(例えば、NLPWin)を使用して達成され得る。オーファン検出器を使用して評価される発話のほとんどは、解析するのに非常に短く且つ単純であるので、意味解析も、浅い意味解析器(例えば、PropBank)又は深い意味解析器(例えば、FrameNet)を使用して、そのような解析器が自然発話言語を解析することになる場合には一般には特にロバストではないとしても、達成され得る。
図4は、図3において構文解析された文に適用される意味解析の例を示している。図示される意味解析木は、「ARG0」が通常は主語であり、「ARG1」が直接目的語であり、「mod」が修飾語であり、「mode」が、通常文ではない文の対話行為(例えば、命令、疑問、又は感嘆)を示す、抽象的意味表現(AMR:abstract meaning representation)形式を用いている。意味解析の構造は、Pred(Arg0, Arg1, mode:imperative(命令))という意味形状素性(semantic shape feature)として表現され得、これは、VPAに向けられた要求についての最頻出意味形状である。対照的に、スタンドアロンコンセプト(例えば、「facebook(登録商標)」)の意味形状は、VPAに向けられた要求よりもウェブ検索クエリにおいて頻繁に、約16回現れている。
オーファン分類器モデルは、素性レベル又は決定レベルにおいて組み合わされ得る。すなわち、単一のオーファン分類器モデルが、オーファン分類決定の基礎となる単一の出力を提供する複数の素性集合を使用してトレーニングされることもあるし、個々のオーファン分類器モデルが、オーファン分類決定を行うときに評価するための出力の集合を提供する各素性集合を使用してトレーニングされることもある。
オーファン検出器は、ドメインモデルにより棄却された発話が、オーファンであるか又はウェブ検索クエリであるかを判定し、処理されるオーファンを返す。オーファンがどのように処理されるかは、オーファン検出器がオンラインシナリオにおいて使用されているか又はオフラインシナリオにおいて使用されているかに応じて変わり得る。
図2に戻ると、オーファン処理動作228は、向上したユーザエクスペリエンスを提供する適切なやり方で、オーファン判定226により識別されたオーファンを処理する。例えば、オーファン処理動作228は、オーファンを一般ウェブ検索クエリに提供するのを回避してもよいし、オーファンについての一般ウェブ結果のレポーティングを止めさせてもよい。代わりに、オーファン処理動作228は、ユーザが特定のアクション要求を行ったことを対話システムが理解したが、その機能が対話システムによっては現在サポートされていないことを示すメッセージを生成することができる。それほど出過ぎていないアプローチにおいて、オーファン処理動作228は、オーファンに基づく一般ウェブ検索結果とともに、オーファンがサポートされていないアクションの要求のようであることを対話システムが理解し、その要求を満足させることができないために、ユーザが実際には一般ウェブ検索結果を実行するよう意図していた場合に備えて上記検索結果が提供されていることをユーザに知らせるメッセージを、提供することができる。オーファン処理動作228の態様は、オーファン判定226により生成された信頼度スコアを使用して、オーファンをどのように処理するかを決定することを含み得る。オーファン処理動作228は、代替的又は追加的に、サポートされていないアクションをどのように実行するかを対話システムに教える機会をユーザに提供してもよい。
ユーザエクスペリエンスが向上するのは、対話システムがユーザの要求を満足させることができるためではなく、ユーザの要求を満足させることができないときでも、対話システムが、意味のある応答を提供するためである。ユーザは、ユーザが求めたことを行う代わりに、対話システムが、理にかなっていない応答(すなわち、ウェブ検索クエリ結果)を提供した理由を理解するようになり、このことは、概して、対話システムに対するユーザのフラストレーションを低減させる。
発話カタログ化(cataloging)動作230は、対話システムにより受信された発話とともに、対話システムにより割り当てられた分類を記憶することができる。発話カタログ化動作230は、対話システムにより受信された全ての発話又は選択されたクラスの発話のみ(例えば、限定ではなく、ドメイン内、ドメイン外、オーファン、ウェブ検索クエリ、雑談、又はfactoid型質問)及びそれらの組合せを記憶するために用いられ得る。例えば、発話カタログ化動作230は、ドメイン外として分類された発話のみを記憶することができる。別の例において、オーファン及びウェブ検索クエリのみが記憶され得る。
受信される入力のタイプ及びクラスに応じて、上記の動作のうちの一部又は全てが、オフラインシナリオでは省かれ得る。例えば、コーパスは、解析されるべきドメイン外発話、又は、ドメイン分類等のステップを不要にする、コーパスに適用されるフィルタを含み得る。同様に、コーパス又はログは、テキストとして記憶され、認識動作を必要としない。さらに、発話の実際の処理は、オフライン解析の目的では、一般に不要である。
図5は、オフライン使用シナリオにおいて、オーファンを用いた、新たなタスクドメイン(すなわち、カバーされていないタスクドメイン)のための意味モデルの教師なしトレーニング(学習)の方法の態様を示す高レベルフローチャートである。方法500は、オーファン検出器により検出されたオーファンに対して、一般解析動作502を実行することで開始する。クエリグループ化動作504は、一般解析動作502の結果と、ウェブ検索エンジンからの知識と、を使用して、類似するオーファン及びウェブ検索クエリをグループ化する。有用なグループ化の例は、限定ではないが、同じ述語及び項のタイプを共有していること(例えば、「play madonna」及び「play some adele」)に基づくグループ化、同じ項のタイプを共有していること(例えば、「show me delta stock」及び「how is united doing today」)に基づくグループ化、又は、同じ主項(main argument)を共有していること(例えば、「recipe of a Mediterranean dish」及び「I need the recipe of Tiramisu」)に基づくグループ化を含む。意味テンプレート化動作506は、例えば、AMR解析形状に基づき得る意味テンプレートを生じさせる。クエリシーディング(seeding)動作508は、意味クラスタリング(例えば、潜在的ディリクレ配分法)を利用してシードクエリを投入する(populates)。トレーニング動作510は、シードクエリを使用して、ドメイン検出及びスロットフィリングモデルをトレーニングする。追加解析動作512は、結果として生じたモデルを使用して、残りのクエリを自動的に解析する。再トレーニング動作514は、追加解析動作512の結果を使用して、意味モデルを再トレーニングする。
広い視野からオーファン検出の利点を見るために、1つの仮想パーソナルアシスタントシステムからの約100万の発話を含む対話コーパスの解析は、それらの発話の大部分が、仮想パーソナルアシスタントにより処理される9個のアトミックドメイン(アラーム、カレンダー、ノート、通話、ショートメッセージサービス、リマインダ、電子メール、天気、及び場所)のうちの1つに属するものとして分類されなかったことを示した。上記発話の30%のみがドメイン内発話であった(すなわち、9個のアトミックドメインのうちの1つに属した)。上記発話の別の5%は、処理できなかった(例えば、理解できなかった)。残りの65%は、factoid型質問、雑談、ウェブ検索クエリ、及びオーファンを含むドメイン外発話であった。
ドメイン外発話の分布をより厳密に見ると、オーファンが、上記発話の約18%を占めた。ウェブ検索クエリが、上記発話の別の23%を占めた。factoid型質問及び雑談の組合せが、上記発話の残りの24%を占めた。
n分割交差検定のために、オーファン検出器分類器モデルが、頻度とは無関係に、上位頻出及び中頻出のクエリから選択された約10万のウェブ検索クエリと、既存の仮想パーソナルアシスタント対話コーパスからの約12万のVPAに向けられた要求と、を含むトレーニングデータから構築された。ウェブ検索クエリが、ネガティブトレーニングクラスを形成し、VPAに向けられた要求が、ポジティブトレーニングクラスを形成した。個々の素性集合(すなわち、語彙、品詞タグ、構文解析、及び意味解析)に基づいてオーファン分類器モデルの相対性能を評価するために、オーファン分類器モデルをトレーニングするときに、7つの既知のタスクドメインのうちの1つを除く全てについてのドメイン内発話が使用された。除かれたタスクドメインは、オーファンとして分類されるべきであり、且つ、他のタスクドメインのいずれによってもピックアップされるべきではない発話の既知の集合を提供した。
オーファン検出器についての2つの主な成功尺度は、適合率及び再現率である。適合率は、オーファン検出器により識別されたオーファンの総数に対する、オーファン検出器により正しく識別されたオーファンの割合を表す。再現率は、オーファン検出器により処理されたドメイン外発話の総数に対する、オーファン検出器により正しく識別されたオーファンの数を表す。検定において、語彙モデル、品詞タグモデル、構文解析モデル、及び意味解析モデルは、80%を超える平均再現率を示したが、適合率は変動した。
個別的には、語彙モデル、品詞タグモデル、構文解析モデル、及び意味解析モデルは、全て、80%を超える平均再現率を示したが、結果の適合率は変動した。表3は、利用可能な素性集合の各々を用いてトレーニングされたオーファン分類器モデルの相対適合率を示している。構文モデルの適合率は、低減される傾向にある。なぜならば、factoid型質問(例えば、「can you paint wood frame homes in winter」)及びVPAに向けられた要求(例えば、「can you tell me a joke」)は、しばしば、同じ構文構造を共有するからである。factoid型質問とVPAに向けられた要求とを区別することは、重要な意味的曖昧性解消タスクである。
Figure 0006667504
表4は、オーファン分類器モデルをトレーニングするときに除かれた既知のタスクドメインから検出された代表発話を示している。語彙モデル及び品詞タグモデルは、構文解析モデル及び意味解析モデルと比較して、特定のキーフレーズ(例えば、「can you please show me...」)を含むより長い発話を返す傾向にある。
Figure 0006667504
本発明の態様は、システム、デバイス、及び他の製品として、又は、ハードウェア、ソフトウェア、コンピュータ読み取り可能な媒体、若しくはこれらの組合せを用いる方法として、実施され得る。以下の説明及び関連する図面は、本明細書に記載の本発明の態様を実施するために利用され得る多数のシステムアーキテクチャ及びコンピューティングデバイスを表す選択されたシステムアーキテクチャ及びコンピューティングデバイスを示しているが、本発明の範囲をいかなるようにも限定するために使用されるべきではない。
様々なタイプの情報及びユーザインタフェースが、オンボードコンピューティングデバイスディスプレイを介して、又は、1以上のコンピューティングデバイスに関連付けられたリモートディスプレイユニットを介して、表示され得る。例えば、様々なタイプの情報及びユーザインタフェースは、様々なタイプの情報及びユーザインタフェースが投影される壁面に表示され、インタラクトされ得る。本発明が実施され得る複数のコンピューティングシステムとのインタラクションは、限定ではないが、キーストローク入力、タッチスクリーン入力、音声入力又は他のオーディオ入力、ジェスチャ入力(関連付けられたコンピューティングデバイスが、コンピューティングデバイスの機能を制御するためのユーザジェスチャをキャプチャして解釈するための検出(例えばカメラ)機能を有する場合)等により実現され得る。
図6は、本発明の態様が実施され得るコンピューティングデバイスについてのアーキテクチャを示すブロック図である。コンピューティングデバイス600は、メインフレームコンピュータ、ミニコンピュータ、サーバ、パーソナルコンピュータ(例えば、デスクトップコンピュータ及びラップトップコンピュータ)、タブレットコンピュータ、ネットブック、スマートフォン、スマートウォッチ、ビデオゲームシステム、及びスマートテレビジョン、並びにスマートコンシューマ電子デバイスを含むがこれらに限定されるものではない多種多様なコンピュータ及びプログラム可能なコンシューマ電子デバイスにおいて具現化される本発明の態様を実施するのに適している。
破線608により示される基本的構成において、コンピューティングデバイス600は、少なくとも1つの処理ユニット602及びシステムメモリ604を含み得る。コンピューティングデバイスの構成及びタイプに応じて、システムメモリ604は、揮発性ストレージ(例えば、ランダムアクセスメモリ)、不揮発性ストレージ(例えば、読み取り専用メモリ)、フラッシュメモリ、又はこのようなメモリの任意の組合せを含み得るが、これらに限定されるものではない。システムメモリ604は、本明細書に記載の本発明の態様を実装するソフトウェアを含め、コンピューティングデバイス600の動作を制御するのに適しているオペレーティングシステム605と、ソフトウェアアプリケーション620を動作させるのに適している1以上のプログラムモジュール606と、を含み得る。
ソフトウェアアプリケーション620は、処理ユニット602上で実行されている間に、方法200及び500の段階のうちの1以上の段階を含むがこれに限定されるものではないプロセスを実行することができる。本発明の態様に従って使用され得る他のプログラムモジュールは、電子メールアプリケーション、連絡帳アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、データベースアプリケーション、スライドプレゼンテーションアプリケーション、又はコンピュータ支援製図アプリケーションプログラム等を含み得る。
基本的構成に加えて、コンピューティングデバイス600は、さらなる特徴又は機能を有することができる。例えば、コンピューティングデバイス600は、例えば、磁気ディスク、光ディスク、又はテープといったさらなるデータ記憶デバイス(着脱可能な記憶デバイス及び/又は着脱不可能な記憶デバイス)をさらに含み得る。そのようなさらなる記憶デバイスが、着脱可能な記憶デバイス609及び着脱不可能な記憶デバイス610により示されている。
コンピューティングデバイス600は、キーボード、マウス、ペン、サウンド入力デバイス、タッチ入力デバイス等といった1以上の入力デバイス612をさらに有することができる。コンピューティングデバイス600は、ディスプレイ、スピーカ、プリンタ等といった1以上の出力デバイス614も含み得る。前述のデバイスは例であり、他のデバイスも使用され得る。コンピューティングデバイス600は、他のコンピューティングデバイス618との通信を可能にする1以上の通信接続616を含み得る。適切な通信接続616の例は、RF送信機、RF受信機、及び/又はトランシーバ回路;ユニバーサルシリアルバス(USB)、パラレルポート、及び/又はシリアルポートを含むが、これらに限定されるものではない。
本明細書で使用されるコンピュータ読み取り可能な媒体という用語は、コンピュータ記憶媒体を含み得る。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、又はプログラムモジュールといった情報を記憶するための任意の方法又は技術により実装された揮発性及び不揮発性の着脱可能及び着脱不可能な媒体を含み得る。システムメモリ604、着脱可能な記憶デバイス609、及び着脱不可能な記憶デバイス610は全て、コンピュータ記憶媒体(すなわち、メモリストレージ)の例である。コンピュータ記憶媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリ、若しくは他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、若しくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、若しくは他の磁気記憶デバイス、又は、情報を記憶するために使用することができ、コンピューティングデバイス600がアクセスできる任意の他の製品を含み得る。そのようなコンピュータ記憶媒体のいずれもが、コンピューティングデバイス600の一部であり得る。
本発明の態様は、ディスクリート電子素子を備える電気回路、ロジックゲートを含むパッケージ化若しくは集積された電子チップ、マイクロプロセッサを利用する回路、又は、電子素子若しくはマイクロプロセッサを含む単一のチップにおいて実施され得る。例えば、本発明の態様は、システムオンチップ(SOC)を介して実施され得、SOCにおいて、図示されるコンポーネントの各々又は多くが、単一の集積回路上に集積され得る。そのようなSOCデバイスは、1以上の処理ユニット、グラフィックスユニット、通信ユニット、システム仮想化ユニット、及び様々なアプリケーション機能を含み得、これらの全てが、単一の集積回路として、チップ基板上に集積される(すなわち、「焼き付けられる」)。SOCを介して動作する場合、ソフトウェアアプリケーション620に関して本明細書で説明された機能は、単一の集積回路(チップ)上で、コンピューティングデバイス600の他のコンポーネントとともに集積される特定用途向けロジックを介して動作し得る。本発明の態様はまた、機械技術、光学技術、流体技術、及び量子技術を含むがこれらに限定されるものではない、例えば、AND、OR、及びNOTといった論理演算を実行することができる他の技術を使用して実施され得る。さらに、本発明の態様は、汎用コンピュータ、又は、任意の他の回路若しくはシステムにおいて実施され得る。
図7Aは、本発明を実施するのに適しているモバイルコンピューティングデバイス700を示している。適切なモバイルコンピューティングデバイスの例は、携帯電話機、スマートフォン、タブレットコンピュータ、サーフェスコンピュータ、及びラップトップコンピュータを含むが、これらに限定されるものではない。基本的構成において、モバイルコンピューティングデバイス700は、入力要素及び出力要素の両方を有するハンドヘルドコンピュータである。モバイルコンピューティングデバイス700は、一般に、ユーザがモバイルコンピューティングデバイス700に情報を入力することを可能にする1以上の入力ボタン710及びディスプレイ750を含む。モバイルコンピューティングデバイス700のディスプレイ705はまた、入力デバイス(例えば、タッチスクリーンディスプレイ)として機能することができる。任意的な側面入力要素715が含まれる場合、側面入力要素715は、さらなるユーザ入力を可能にする。側面入力要素715は、回転スイッチ、ボタン、又は任意の他のタイプの手動入力要素であり得る。モバイルコンピューティングデバイス700は、より多い又はより少ない入力要素を組み込んでもよい。例えば、ディスプレイ705は、タッチスクリーンでなくてもよい。モバイルコンピューティングデバイス700は、任意的なキーパッド735を含んでもよい。任意的なキーパッド735は、物理キーパッドであってもよいし、タッチスクリーンディスプレイ上に生成される「ソフト」キーパッドであってもよい。出力要素は、グラフィカルユーザインタフェースを表示するためのディスプレイ705、ビジュアルインジケータ720(例えば、発光ダイオード)、及び/又はオーディオトランスデューサ725(例えば、スピーカ)を含む。モバイルコンピューティングデバイス700は、ユーザに触覚フィードバックを提供するための振動トランスデューサを組み込むことができる。モバイルコンピューティングデバイス700は、外部デバイスに信号を送信する又は外部デバイスから信号を受信するためのオーディオ入力ポート(例えば、マイクロフォンジャック)、オーディオ出力ポート(例えば、ヘッドフォンジャック)、及びビデオ出力ポート(例えば、HDMI(登録商標)ポート)等の入力ポート及び/又は出力ポートを組み込むことができる。
図7Bは、本発明の態様が実施され得るモバイルコンピューティングデバイスについてのアーキテクチャを示すブロック図である。一例として、モバイルコンピューティングデバイス700は、1以上のアプリケーション(例えば、ブラウザ、電子メールクライアント、ノート、連絡帳マネージャ、メッセージングクライアント、ゲーム、及びメディアクライアント/プレーヤ)を実行することができるスマートフォン等のシステム702において実装され得る。
1以上のアプリケーションプログラム765は、メモリ762にロードされ、オペレーティングシステム764上で又はオペレーティングシステム764に関連して、実行され得る。アプリケーションプログラムの例は、電話ダイヤラプログラム、電子メールプログラム、個人情報管理(PIM)プログラム、ワードプロセッシングプログラム、スプレッドシートプログラム、インターネットブラウザプログラム、メッセージングプログラム等を含む。システム702はまた、メモリ762内に不揮発性ストレージ領域768を含む。不揮発性ストレージ領域768は、システム702に電力が供給されない場合に失われるべきでない永続的情報を記憶するために使用され得る。アプリケーションプログラム765は、電子メールアプリケーションにより使用される電子メール又は他のメッセージ等といった情報を不揮発性ストレージ領域768に記憶することができ、不揮発性ストレージ領域768内のそのような情報を使用することができる。同期アプリケーション(図示せず)が、システム702に存在し、ホストコンピュータに存在する対応する同期アプリケーションとインタラクトするようにプログラムされ、ホストコンピュータに記憶される対応する情報と同期される情報が不揮発性ストレージ領域768に記憶されて保持されるようにする。本明細書に記載の本発明の態様を実装するソフトウェアを含む他のアプリケーションも、メモリ762にロードされ、モバイルコンピューティングデバイス700上で実行され得ることを理解されたい。
システム702は、1以上のバッテリとして実装され得る電源770を有する。電源770は、そのようなバッテリを補足又は再充電するACアダプタ又は電源ドッキングクレードル等の外部電源をさらに含んでもよい。
システム702はまた、無線周波数通信を送信及び受信する機能を実行する無線機772を含み得る。無線機772は、通信キャリア又は通信サービスプロバイダを介する、システム702と外部世界との間の無線接続を円滑にする。無線機772との間の伝送は、オペレーティングシステム764の制御下で行われる。すなわち、無線機772により受信される通信は、オペレーティングシステム764を介してアプリケーションプログラム765に伝達され得、その逆も同様である。
ビジュアルインジケータ720は、視覚的通知を提供するために使用され得、且つ/あるは、オーディオインタフェース774は、オーディオトランスデューサ725を介する可聴通知を生成するために使用され得る。図示されるように、ビジュアルインジケータ720は、発光ダイオード(LED)であり得る。これらのデバイスは、プロセッサ760及び他のコンポーネントがバッテリ電力を節約するためにシャットダウンした場合であっても、アクティブ化されたときに通知メカニズムにより指示される時間期間の間オンであり続けるように、電源770に直接的に接続され得る。LEDは、ユーザがデバイスの電源オン状態を指示するアクションをとるまで、無期限にオンであり続けるようにプログラムされてもよい。オーディオインタフェース774は、ユーザに可聴信号を提供し、ユーザからの可聴信号を受信するために、使用される。例えば、オーディオインタフェース774は、オーディオトランスデューサ725に接続されることに加えて、電話会話を円滑にするため等の、可聴入力を受信するマイクロフォンにも接続され得る。マイクロフォンはまた、以下で説明されるように、通知の制御を円滑にするためにオーディオセンサとして機能することができる。システム702は、静止画像、ビデオストリーム等を記録するためのオンボードカメラ730の動作を可能にするビデオインタフェース776をさらに含み得る。
システム702を実装するモバイルコンピューティングデバイス700は、さらなる特徴又は機能を有することができる。例えば、モバイルコンピューティングデバイス700は、磁気ディスク、光ディスク、又はテープといったさらなるデータ記憶デバイス(着脱可能な記憶デバイス及び/又は着脱不可能な記憶デバイス)をさらに含み得る。そのようなさらなる記憶デバイスが、不揮発性ストレージ領域768により示されている。周辺ポート740は、外部デバイスがモバイルコンピューティングデバイス700に接続されることを可能にする。外部デバイスは、さらなる特徴又は機能をモバイルコンピューティングデバイス700に提供することができ、且つ/あるいは、モバイルコンピューティングデバイス700との間でデータが転送されることを可能にする。
モバイルコンピューティングデバイス700により生成又はキャプチャされ、システム702を介して記憶されるデータ/情報は、上述したように、モバイルコンピューティングデバイス700にローカルに記憶されることもあるし、そのようなデータは、無線機772を介して、又は、モバイルコンピューティングデバイス700と、例えば、インターネット等の分散コンピューティングネットワークにおけるサーバコンピュータといった、モバイルコンピューティングデバイス700に関連付けられた別のコンピューティングデバイスと、の間の有線接続を介して、デバイスによりアクセスされ得る任意の数の記憶媒体に記憶されることもある。そのようなデータ/情報は、無線機772を介して又は分散コンピューティングネットワークを介して、モバイルコンピューティングデバイス700によりアクセスされ得ることを理解されたい。同様に、そのようなデータ/情報は、電子メール及び協調的データ/情報共有システムを含む周知のデータ/情報転送及び記憶手段に従って、記憶及び使用のために、コンピューティングデバイス間で容易に転送され得る。
図8は、本発明の態様を実施するための分散コンピューティングシステムの簡略ブロック図である。本明細書に記載の本発明の態様を実装するソフトウェアを含むソフトウェアアプリケーションに関連して開発、インタラクト、又は編集されるコンテンツは、異なる通信チャネル又は他のタイプのストレージに記憶され得る。例えば、様々な文書は、ディレクトリサービス822、ウェブポータル824、メールボックスサービス826、インスタントメッセージングストア828、又はソーシャルネットワーキングサイト830を使用して記憶され得る。ソフトウェアアプリケーションは、本明細書で説明したように、データ利用を可能にするために、これらのタイプのシステム等のうちの任意のものを使用することができる。サーバ820は、ソフトウェアアプリケーションをクライアントに提供することができる。一例として、サーバ820は、ウェブ上でソフトウェアアプリケーションを提供するウェブサーバであり得る。サーバ820は、ネットワーク815を介して、ウェブ上でソフトウェアアプリケーションをクライアントに提供することができる。例えば、クライアントデバイスは、コンピューティングデバイス600として実装され、パーソナルコンピュータ818a、タブレットコンピュータ818b、及び/又はモバイルコンピューティングデバイス(例えば、スマートフォン)818cにおいて具現化され得る。これらのクライアントデバイスのいずれも、ストア816からコンテンツを取得することができる。
本出願において提供された1以上の実施形態の説明及び図示は、本主題の全範囲の完全で明確且つ十分な開示を当業者に提供するよう意図されており、特許請求される発明の範囲をいかなるようにも限定又は制限するようには意図されていない。本出願において提供された態様、実施形態、例、及び詳細は、特許請求される発明のベストモードを実施するための情報を伝え、当業者がそのようなベストモードを実施することを可能にするのに十分であると考えられる。当業者に周知であると考えられる構造、リソース、動作、及びアクトの説明は、本出願の主題のそれほど知られていない又は特有の態様を曖昧にしないようにするために、簡潔である又は省略されていることがある。特許請求される発明は、本明細書において明示的に記されていない限り、本出願において提供された実施形態、例、又は詳細に限定されるものとして解釈されるべきではない。集合的に図示又は説明されているか、個別的に図示又は説明されているかにかかわらず、様々な特徴(構造的特徴及び方法的特徴の両方)は、特定の特徴セットを有する実施形態をもたらすよう選択的に含まれる又は除かれるように意図されている。さらに、図示又は説明された機能及び動作のいずれか又は全ては、任意の順番で実行されることもあるし、並行して実行されることもある。本出願の説明及び図示が提供されたが、当業者であれば、特許請求される発明のより広い範囲から逸脱しない、本出願において具現化される独創的なコンセプト全般のより広い態様の主旨に含まれる変形形態、変更形態、及び代替形態を想起できるであろう。

Claims (6)

  1. コンピュータにより実行される方法であって、
    前記コンピュータが、対象言語理解対話システムのドメイン分類器により棄却されたドメイン外発話を受信するステップと
    前記コンピュータが、オーファン分類器を使用して、前記オーファン分類器への入力として提供された前記ドメイン外発話の素性に基づいて、前記ドメイン外発話をオーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定するステップであって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話である、ステップと、
    前記ドメイン外発話が前記オーファンであると判定された場合、前記コンピュータが、前記ドメイン外発話が、前記対象言語理解対話システムに向けられた、前記所定のアクションを実行するための要求として理解されたことを示す応答を生成するステップと、
    を含む方法。
  2. 前記ドメイン外発話は、前記対象言語理解対話システムによりサポートされているいずれのタスクドメインにも属さない、請求項1記載の方法。
  3. 前記ドメイン外発話が前記オーファンであると判定する前に、前記コンピュータが、前記ドメイン外発話から前記素性を抽出するステップをさらに含む、請求項1記載の方法。
  4. 前記ドメイン外発話の前記素性に基づいて、前記ドメイン外発話を前記オーファンとして分類することは、前記ドメイン外発話において述語及び項が存在することに基づいて、前記ドメイン外発話を前記オーファンとして分類することを含む、請求項1記載の方法。
  5. 少なくとも1つのドメインを有する対象言語理解対話システムであって、
    発話から素性を抽出するよう動作可能な素性抽出器と、
    第1の分類器であって、前記素性を入力として受信し、前記発話が、前記第1の分類器に関連付けられているいずれのドメインにも属さないドメイン外発話であるかどうかを判定するよう動作可能な第1の分類器と、
    前記ドメイン外発話を受信し、前記ドメイン外発話がオーファンであるかどうかを判定するよう動作可能なオーファン検出器であって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話であり、前記オーファン検出器は、第2の分類器を含み、前記オーファン検出器は、前記第2の分類器が、前記素性を入力として受信し、前記素性に基づいて、前記ドメイン外発話を前記オーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定する、オーファン検出器と、
    前記オーファンを一般ウェブ検索に送ることなく前記オーファンを処理するよう動作可能なインタラクション管理器と、
    を備えた対象言語理解対話システム。
  6. コンピュータにより実行されたときに、前記コンピュータに、1以上のタスクドメインを有する対象言語理解対話システムにおいてドメイン外発話からオーファンを検出する方法を実行させるコンピュータプログラムであって、前記方法は、
    前記対象言語理解対話システムに関連付けられている入力デバイスを介して発話を受信するステップと、
    ドメイン分類器の集合を使用して前記発話を処理し、前記発話が、前記対象言語理解対話システムによりサポートされているタスクドメインに属するかどうかを判定するステップと、
    前記発話が、前記対象言語理解対話システムによりサポートされているいずれのタスクドメインにも属さない場合、前記発話を、ドメイン外発話として分類するステップと、
    前記ドメイン外発話の意味形状を判定するステップと、
    前記ドメイン外発話の前記意味形状が、述語及び目的語を有する基準意味形状に対応する場合、前記ドメイン外発話を、オーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定するステップであって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話である、ステップと、
    前記ドメイン外発話が前記オーファンであると判定された場合、前記ドメイン外発話が、前記対象言語理解対話システムに向けられた、前記所定のアクションを実行するための要求として理解されたことを示す出力を生成するステップと、
    前記対象言語理解対話システムに関連付けられている出力デバイスを介して、前記出力をレンダリングするステップと、
    を含む、コンピュータプログラム。
JP2017510492A 2014-08-22 2015-08-20 オーファン発話検出システム及び方法 Expired - Fee Related JP6667504B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/466,642 2014-08-22
US14/466,642 US20160055240A1 (en) 2014-08-22 2014-08-22 Orphaned utterance detection system and method
PCT/US2015/045978 WO2016028946A1 (en) 2014-08-22 2015-08-20 Orphaned utterance detection system and method

Publications (3)

Publication Number Publication Date
JP2017534941A JP2017534941A (ja) 2017-11-24
JP2017534941A5 JP2017534941A5 (ja) 2018-08-23
JP6667504B2 true JP6667504B2 (ja) 2020-03-18

Family

ID=54065460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017510492A Expired - Fee Related JP6667504B2 (ja) 2014-08-22 2015-08-20 オーファン発話検出システム及び方法

Country Status (11)

Country Link
US (1) US20160055240A1 (ja)
EP (1) EP3183728B1 (ja)
JP (1) JP6667504B2 (ja)
KR (1) KR20170047268A (ja)
CN (1) CN106575293B (ja)
AU (1) AU2015305488A1 (ja)
BR (1) BR112017002814A2 (ja)
CA (1) CA2955497A1 (ja)
MX (1) MX2017002289A (ja)
RU (1) RU2699399C2 (ja)
WO (1) WO2016028946A1 (ja)

Families Citing this family (164)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) * 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9443519B1 (en) * 2015-09-09 2016-09-13 Google Inc. Reducing latency caused by switching input modalities
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US11164087B2 (en) * 2016-05-20 2021-11-02 Disney Enterprises, Inc. Systems and methods for determining semantic roles of arguments in sentences
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10366234B2 (en) 2016-09-16 2019-07-30 Rapid7, Inc. Identifying web shell applications through file analysis
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10643601B2 (en) * 2017-02-09 2020-05-05 Semantic Machines, Inc. Detection mechanism for automated dialog systems
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
US11386274B2 (en) 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US10599885B2 (en) 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US10817670B2 (en) 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
JP7086993B2 (ja) 2017-05-10 2022-06-20 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
US10679011B2 (en) 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
US11373632B2 (en) 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US11586827B2 (en) 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107316635B (zh) * 2017-05-19 2020-09-11 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
KR102410825B1 (ko) 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
US11081106B2 (en) * 2017-08-25 2021-08-03 Microsoft Technology Licensing, Llc Contextual spoken language understanding in a spoken dialogue system
KR102509821B1 (ko) 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
US11182412B2 (en) 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
CN111149107B (zh) * 2017-09-28 2023-08-22 甲骨文国际公司 使自主代理能够区分问题和请求
WO2019067869A1 (en) 2017-09-28 2019-04-04 Oracle International Corporation DETERMINING RHETORIC RELATIONSHIPS BETWEEN DOCUMENTS BASED ON THE ANALYSIS AND IDENTIFICATION OF NAMED ENTITIES
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7095254B2 (ja) * 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
CN109670163B (zh) * 2017-10-17 2023-03-28 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
JP7447019B2 (ja) 2018-01-30 2024-03-11 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーを用いる、説明の要求の検出
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11328016B2 (en) 2018-05-09 2022-05-10 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11314940B2 (en) * 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR20230145521A (ko) * 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기
US10832659B2 (en) 2018-08-31 2020-11-10 International Business Machines Corporation Intent authoring using weak supervision and co-training for automated response systems
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11562135B2 (en) 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10936823B2 (en) 2018-10-30 2021-03-02 International Business Machines Corporation Method and system for displaying automated agent comprehension
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
KR102198295B1 (ko) * 2018-12-27 2021-01-05 주식회사 솔트룩스 복수의 대화 도메인을 가지는 대화 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020163627A1 (en) * 2019-02-07 2020-08-13 Clinc, Inc. Systems and methods for machine learning-based multi-intent segmentation and classification
US11023683B2 (en) 2019-03-06 2021-06-01 International Business Machines Corporation Out-of-domain sentence detection
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
EP3747006A1 (en) * 2019-04-26 2020-12-09 Google LLC Dynamically delaying execution of automated assistant actions and/or background application requests
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11106875B2 (en) 2019-05-20 2021-08-31 International Business Machines Corporation Evaluation framework for intent authoring processes
US11144727B2 (en) 2019-05-20 2021-10-12 International Business Machines Corporation Evaluation framework for intent authoring processes
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11996098B2 (en) * 2019-06-05 2024-05-28 Hewlett-Packard Development Company, L.P. Missed utterance resolutions
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11380306B2 (en) 2019-10-31 2022-07-05 International Business Machines Corporation Iterative intent building utilizing dynamic scheduling of batch utterance expansion methods
US11775772B2 (en) 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply
DE102020100638A1 (de) * 2020-01-14 2021-07-15 Bayerische Motoren Werke Aktiengesellschaft System und Verfahren für einen Dialog mit einem Nutzer
US20210312138A1 (en) * 2020-03-10 2021-10-07 MeetKai, Inc. System and method for handling out of scope or out of domain user inquiries
US11538457B2 (en) * 2020-03-30 2022-12-27 Oracle International Corporation Noise data augmentation for natural language processing
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112148864B (zh) * 2020-11-25 2021-05-28 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质
US11854528B2 (en) * 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding
US11393475B1 (en) * 2021-01-13 2022-07-19 Artificial Solutions Iberia S.L Conversational system for recognizing, understanding, and acting on multiple intents and hypotheses

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US20100030549A1 (en) * 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US8543401B2 (en) * 2009-04-17 2013-09-24 Synchronoss Technologies System and method for improving performance of semantic classifiers in spoken dialog systems
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US9858343B2 (en) * 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9053087B2 (en) * 2011-09-23 2015-06-09 Microsoft Technology Licensing, Llc Automatic semantic evaluation of speech recognition results
US20130124490A1 (en) * 2011-11-10 2013-05-16 Microsoft Corporation Contextual suggestion of search queries
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions

Also Published As

Publication number Publication date
BR112017002814A2 (pt) 2017-12-19
RU2699399C2 (ru) 2019-09-05
RU2017105466A3 (ja) 2019-03-22
WO2016028946A1 (en) 2016-02-25
AU2015305488A1 (en) 2017-02-09
JP2017534941A (ja) 2017-11-24
KR20170047268A (ko) 2017-05-04
US20160055240A1 (en) 2016-02-25
CN106575293A (zh) 2017-04-19
RU2017105466A (ru) 2018-08-21
CN106575293B (zh) 2019-11-05
MX2017002289A (es) 2017-05-04
EP3183728A1 (en) 2017-06-28
EP3183728B1 (en) 2018-06-13
CA2955497A1 (en) 2016-02-25

Similar Documents

Publication Publication Date Title
JP6667504B2 (ja) オーファン発話検出システム及び方法
AU2022221387B2 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US10878009B2 (en) Translating natural language utterances to keyword search queries
US10181322B2 (en) Multi-user, multi-domain dialog system
US10339916B2 (en) Generation and application of universal hypothesis ranking model
JP6701206B2 (ja) ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US9805718B2 (en) Clarifying natural language input using targeted questions
JP6942821B2 (ja) 複数のコーパスからの応答情報取得
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
US20140236570A1 (en) Exploiting the semantic web for unsupervised spoken language understanding
US20130246392A1 (en) Conversational System and Method of Searching for Information
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200225

R150 Certificate of patent or registration of utility model

Ref document number: 6667504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees