JP6667504B2

JP6667504B2 - オーファン発話検出システム及び方法

Info

Publication number: JP6667504B2
Application number: JP2017510492A
Authority: JP
Inventors: トゥール，ゴカーン; デオラス，アヌープ; ハッカニ−トゥール，ディレク
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2014-08-22
Filing date: 2015-08-20
Publication date: 2020-03-18
Anticipated expiration: 2035-08-20
Also published as: BR112017002814A2; RU2699399C2; RU2017105466A3; WO2016028946A1; AU2015305488A1; JP2017534941A; KR20170047268A; US20160055240A1; CN106575293A; RU2017105466A; CN106575293B; MX2017002289A; EP3183728A1; EP3183728B1; CA2955497A1

Description

スマートフォン及び他のデバイスが、仮想パーソナルアシスタント等の対象言語理解対話システム（targeted language understanding dialog systems）を、コンシューマに広く利用可能にしている。対象言語理解対話システムは、限られた数の選択された主題領域（すなわち、タスクドメイン）におけるユーザ入力の深い理解を提供する。このようなタスクドメインの外では、対象言語理解対話システムは、ユーザ入力を処理するために、浅い理解又は一般化された技術にフォールバックする。一般的なフォールバックは、ドメイン外ユーザ入力を、一般ウェブ検索（general web search）の対象として処理する。

ユーザは、対象言語理解対話システムの能力及び制限を必ずしも認知しているわけではない。例えば、スマートフォン上の仮想パーソナルアシスタントは、電話をかけること、テキストメッセージ及び電子メールを送信すること、アラーム及びリマインダを設定すること、ノート及びカレンダーエントリを作成すること、及び、天気又は場所についての情報を得ること等のタスクに関して仮想パーソナルアシスタントがユーザを支援することを許容する、通話、ショートメッセージサービス（ＳＭＳ）、電子メール、カレンダー、アラーム、リマインダ、ノート、天気、及び場所のタスクドメインに制限され得る。スマートフォンは、他のアクティビティ（例えば、音楽再生）が可能であるので、ユーザは、仮想パーソナルアシスタントがこのような他のアクティビティに関しても支援できるとみなしてしまうことがある。例えば、ユーザは、ユーザの音楽ライブラリから選択される音楽を聞くことを期待して、仮想パーソナルアシスタントが「エアロスミスの歌を再生する」ことを要求するかもしれない。音楽タスクドメインがなければ、ユーザのこの要求は理解されない。ユーザは、要求した音楽を聞く代わりに、ウェブページのリストを得る。ユーザは、仮想パーソナルアシスタントが音楽タスクをどのように処理するかを知らないことを認識せずに、この要求を繰り返す且つ／又は言い直すことを試みるかもしれない。同時に、ユーザは、仮想パーソナルアシスタントのこのフォールバック挙動を認識し、フォールバックウェブ検索結果を得ることを期待して、単純なキーワード（例えば、「最低料金」）を一般に使用する。

仮想パーソナルアシスタントの観点からは、音楽を再生する要求又はキーワードは、タスクドメインのうちのいずれによってもカバーされていないので、これらがウェブ検索クエリとして処理される。しかしながら、ユーザエクスペリエンスは、非常に異なる。ユーザの観点からは、音楽を再生する要求に応じてウェブ検索結果を得ることは、ユーザの期待を満足させないので、苛立たしいものである。一方、ウェブ検索結果は、ユーザが期待するものである場合には、満足のいくものである。技術的問題は、ウェブ検索が適切である場合のウェブ検索クエリと、対象言語理解対話システムに向けられる要求であるが、ウェブ検索結果を返す以外の結果をもたらすよう意図されている、対象言語理解対話システムのタスクドメインのうちのいずれによってもカバーされていない要求と、を区別することである。本発明がなされたのは、これらの検討事項及び他の検討事項に対してである。比較的具体的な問題が説明されたが、本明細書で開示される態様は、この背景技術において特定される具体的な問題を解決することに限定されるべきではない。

この発明の概要は、発明を実施するための形態のセクションにおいて以下でさらに説明されるコンセプトのうち選択されたコンセプトを紹介するために提供される。この発明の概要は、特許請求される主題の主要な特徴又は必要不可欠な特徴を特定することを意図するものではないし、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。

オーファン（orphaned）発話検出システム及び付随する方法の態様は、対象言語理解対話システムからのドメイン外発話を処理して、ドメイン外発話が、一般ウェブ検索を実行すること等のフォールバック処理がウェブ検索により満たされる可能性が低い場合には対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているかどうかを判定するオーファン（orphan）検出器を含む。オーファン検出器を組み込んでいる対話システムは、処理される１以上の発話を受信する。発話が、対象理解コンポーネント（targeted understanding component）のタスクドメインのうちのいずれかによってカバーされているかどうかに基づいて、ドメイン分類器を使用して、発話が、ドメイン内又はドメイン外として分類される。素性（特徴）（features）が、発話を分類及び理解する際に使用するために、発話から抽出される。素性抽出は、語彙解析（lexical parsing）動作、品詞タグ付け（part-of-speech tagging）動作、構文（統語）解析（syntactic parsing）動作、及び意味解析（semantic parsing）動作のうちの１以上を含み得る。

オーファン判定は、抽出された素性に基づいて、ドメイン外発話がオーファンであるかどうかを識別する。使用される１つの語彙素性は、単純に、発話からの単語ｎグラムである。オーファン検出器は、内容よりも構造に依存するので、構文素性がまた、オーファン分類器により使用され得る。オーファン判定において使用するためのベースライン構文素性は、品詞タグｎグラムである。意味素性がまた、オーファン分類器モデルにおいて有用である。述語と項の集合との存在についてチェックすることは、高適合率オーファン分類のための１つの意味素性を与える。オーファンは、一般ウェブ検索クエリと同じようには処理されない。これは、向上したユーザエクスペリエンスを提供する。ユーザエクスペリエンスが向上するのは、対話システムがユーザの要求を満足させることができるためではなく、ユーザの要求を満足させることができないときでも、対話システムが、意味のある応答を提供するためである。

本開示のさらなる特徴、態様、及び利点が、添付の図面を参照することにより、より良く理解されるようになる。添付の図面において、詳細をより明瞭に示すために、要素は縮尺通りではなく、同様の参照符号は、複数の図面を通して、同様の要素を示す。
オーファン検出器を使用する対象言語理解対話システムの態様を示すシステム図。オーファンを検出して処理する方法の態様を示す高レベルフローチャート。構成要素に基づく構文構造解析の例を示す図。図３において構文解析された文に適用される意味解析の例を示す図。オフライン使用シナリオにおいて、オーファンを用いた、新たなタスクドメイン（すなわち、カバーされていないタスクドメイン）のための意味モデルの教師なしトレーニングの方法の態様を示す高レベルフローチャート。本発明の態様を実施するのに適しているコンピューティングデバイスの物理コンポーネントを示すブロック図。本発明の態様を実施するのに適しているモバイルコンピューティングデバイスを示す図。本発明の態様を実施するのに適しているモバイルコンピューティングデバイスについてのアーキテクチャを示すブロック図。本発明の態様が実施され得る分散コンピューティングシステムの簡略ブロック図。

本発明の様々な態様が、本明細書の一部を形成し本発明の特定の例示的な態様を示す添付の図面を参照して、以下でより詳細に説明される。しかしながら、本発明は、多くの異なる形態で実施可能であり、本明細書に記載される態様に限定されるものとして解釈されるべきではない。そうではなく、そのような態様は、本開示が明確かつ十分であるとともに、様々な態様の範囲を当業者に完全に伝えるように、提供される。態様は、方法、システム、又はデバイスとして実施され得る。したがって、実装は、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアとの組合せを使用して実現され得る。したがって、以下の詳細な説明は、限定的に解釈されるべきではない。

オーファン検出器及び付随する方法の態様が、本明細書で説明され、添付の図面に示される。オーファン検出器は、対象言語理解対話システムからのドメイン外発話を処理して、ドメイン外発話が、一般ウェブ検索を実行すること等のフォールバック処理がウェブ検索により満たされる可能性が低い場合には対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているかどうかを判定する。そのような発話は、タスクドメインのうちのいずれによっても又はフォールバック処理によっても適切に処理されないので、オーファンと呼ばれる。オーファン検出器は、内容ではなく発話の構造に主としてフォーカスすることにより、オーファンを、ウェブ検索クエリ及び他のドメイン外発話と区別する。オーファン検出器により検出されたオーファンは、対象言語理解対話システムに対するユーザエクスペリエンスを向上させるために、オンライン及びオフラインの両方で使用され得る。オーファン検出器はまた、ウェブ検索エンジンクエリログから、構造的に類似するクエリ又は文を取り出すために使用され得る。

図１は、オーファン検出器を使用する対象言語理解対話システムの態様を示すシステム図である。対話システム１００は、オーファン検出器１０２及び対象理解コンポーネント１０４を含む。対話システムは、単一のコンピューティングデバイスを使用するローカルアーキテクチャにおいて実装されてもよいし、図示されるように、限定ではないが、サーバ１０８と通信するクライアントデバイス１０６等の１以上のコンピューティングデバイスを使用する分散アーキテクチャにおいて実装されてもよい。クライアントデバイス１０６及びサーバ１０８は、サーバコンピュータ、デスクトップコンピュータ、ラップトップ、タブレットコンピュータ、スマートフォン、スマートウォッチ、及びスマート機器を含むがこれらに限定されるものではない様々なコンピューティングデバイスを使用して実装され得る。分散コンポーネント群は、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネット等であるがこれらに限定されるものではないネットワークを介して通信することができる。

対話システム１００は、多種多様な入力モダリティ及び出力モダリティを介してユーザ１１２とインタラクトするためのユーザインタフェース１１０を提供する。入力モダリティ及び出力モダリティのタイプ及び数は、クライアントデバイス１０６のハードウェアに依存する。適切な入力モダリティ及び出力モダリティの例は、発話、テキスト、手書き、タッチ、及びジェスチャを含むが、これらに限定されるものではない。クライアントデバイス１０６は、１以上の入力デバイス１１６を介して、ユーザ１１２からの会話型入力１１４を受信し、１以上の出力デバイス１２０を介して、ユーザ１１２による利用のために会話型出力をレンダリングする。適切な入力デバイスの例は、マイクロフォン、タッチスクリーン、カメラ、スキャナ、物理キーボード、物理キーパッド、仮想キーボード、及び仮想キーパッドを含むが、これらに限定されるものではない。適切な出力デバイスの例は、スピーカ、ディスプレイスクリーン、及びプロジェクタを含むが、これらに限定されるものではない。

一例として、コンテキストを提供するために、対話システム１００の態様は、ユーザからの発話に応答するマルチモーダル仮想パーソナルアシスタント（ＶＰＡ）として説明され得る。しかしながら、オーファン検出器１０２は、多種多様な対象言語理解対話システムとともに使用することができ、仮想パーソナルアシスタントとともに使用されることに限定されるべきではない。便宜上、本明細書で使用される場合、「発話」という用語は、モードに関係なく、対話システム１００への任意の会話型入力を指す。特定のモダリティ又は会話型入力への言及又はこれらの説明は、他のモダリティを実施するための対応するハードウェア変更及び／又はソフトウェア変更をともにする他のモダリティ及び会話型入力を広く包含するものとして理解されるべきである。

非テキスト発話を受信する場合、対話システム１００は、コンピュータ読み取り可能な形式ではない発話を、入力タイプに合わせた適切な解読（decoding）技術を使用して処理するためのコンピュータ読み取り可能な形式に変換する１以上の自動発話認識器１２２を含み得る。適切な自動発話認識器１２２の例は、音声認識器、ジェスチャ認識器、光学式文字認識器、及び手書き認識器を含むが、これらに限定されるものではない。自動発話認識器１２２の出力は、対象理解コンポーネント１０４に提供される。

素性抽出器１２４は、自動発話認識器１２２の出力から素性を抽出する。素性は、オーファン検出器１０２及び／又は対象理解コンポーネント１０４による使用のために抽出され得る。オーファン検出器１０２のために抽出される素性のタイプは、語彙素性、品詞タグ素性、構文素性、及び意味素性を含む。

対象理解コンポーネント１０４は、ドメイン分類器１２６及び言語理解コンポーネント１２８を含む。ドメイン分類器１２６は、１以上のドメインモデルを使用して、発話を、１以上のサポートされているタスクドメインにマッピングしようと試みる。サポートされているタスクドメインのうちの１つによりカバーされている発話は、「ドメイン内」である。言語理解コンポーネント１２８は、コンピュータ読み取り可能なテキストを、対話システムにより処理され得る意味表現に分解して（disassemble）解析することにより、発話を、意味のある表現に変換する。ほとんどのマルチドメイン対話システムにおいて、対象意味処理は、全てのタスクドメインのためのグローバル文法（global grammar）又は統計モデルを使用する代わりに、各タスクドメインに固有のドメインモデルを使用して、タスクドメインごとに実行される。対象理解を用いることは、システム設計者が、対話システムの機能にフォーカスし、ドメイン内発話の深い理解を提供することを可能にする。

ドメイン外発話は、バックオフ理解（backoff understanding）を介して処理される。前述したように、対象言語理解対話システムにより用いられるバックオフ理解の典型的な例は、全てのドメイン分類器により棄却（リジェクト）された発話を、一般ウェブ検索クエリとして処理することである。仮想パーソナルアシスタント及び他の対象言語理解対話システムにおけるバックオフ理解はまた、ｆａｃｔｏｉｄ（ファクトイド）型質問検出器１３０及び／又は雑談（チットチャット）（chit-chat）検出器１３２を含み得る。

ｆａｃｔｏｉｄ型質問は、固有表現（named entity）についての単純な事実を求める質問である。ｆａｃｔｏｉｄ型質問は、しばしば、ｗｈｏ型質問、ｗｈａｔ型質問、ｗｈｅｎ型質問、ｗｈｅｒｅ型質問、ｗｈｙ型質問、又はｈｏｗ型質問と表現される。ｆａｃｔｏｉｄ型質問の一例は、「ＷｈａｔｉｓｔｈｅｔａｌｌｅｓｔｍｏｕｎｔａｉｎｉｎｔｈｅＵｎｉｔｅｄＳｔａｔｅｓ？」である。

雑談は、おしゃべり（small talk）の性質の何気ない発話を指す。仮想パーソナルアシスタントを用いると、雑談は、典型的には、半分たわいない又は半私的な性質の質問を伴う。仮想パーソナルアシスタントを、少なくともいくらか人間のように思わせるために、そのような質問に対する応答が、仮想パーソナルアシスタントに提供され得る。雑談の例は、「ｗｈｅｒｅａｒｅｙｏｕｆｒｏｍ」や「ｔｅｌｌｍｅａｊｏｋｅ」等の発話を含む。本質的に、雑談は、仮想パーソナルアシスタント又は他の対象言語理解対話システムのパーソナリティを決めるのに役立つ非生産的なインタラクションを伴う。

オーファン検出器１０２は、オーファンを検出することにより、バックオフ理解を向上させる。本明細書で使用される場合、オーファンは、対象言語理解対話システムのタスクドメインのうちのいずれによってもカバーされていない（すなわち、ドメイン外発話）と認識される非ｆａｃｔｏｉｄ型で明瞭で具体的な意図を有する要求を指す。したがって、オーファンは、適切なタスクドメインをもって対象言語理解対話システムによりカバーされ得る要求であって、一般ウェブ検索を実行することによっては満足させることができない要求を表す。

仮想パーソナルアシスタント等の、ユーザ発話に対する同時応答を提供するオンラインシステムにおいて、オーファン検出器１０２は、対話システム１００が、特定のユーザエクスペリエンスを向上させる適切なやり方でオーファンにインテリジェントに応答することを可能にする。例えば、オーファン検出器１０２により提供される情報は、ユーザ発話がオーファンであるときに無反応な一般ウェブ検索を返すのを避けるとともに、適切な応答を示すように、オンラインで使用され得る。オフライン使用では、オーファン検出器１０２は、対象理解コンポーネント１０４の機能を向上させるための価値のある情報を提供し、それにより、対話システム１００に対する全般的なユーザエクスペリエンスを向上させる。例えば、オーファン検出器１０２は、新たなタスクドメインを迅速に追加して対象言語理解対話システムの機能を拡張するように、又は、既存のドメインモデルを向上させてオーファンを処理するように、オフラインで使用され得る。

識別分類器が、オーファン検出器１０２における使用によく適している。なぜならば、識別分類器は、生成分類器（例えば、単純ベイズ）と比較して、前の確率分布の影響を受けにくい傾向にあるからである。適切な識別分類器の一例は、サポートベクターマシン（ＳＶＭ）である。サポートベクターマシンは、通常、大きな素性空間を伴うタスクについて、他の二値分類法より性能が優れている。オーファン検出素性空間は、単語及び品詞タグｎグラムの全てを含むので、非常に大きい。

オーファン検出器分類器モデルは、頻繁に生じるウェブ検索クエリの集合と、対話コーパスから対話システムに向けられた発話の集合と、を含むトレーニングデータを使用して構築され得る。ウェブ検索クエリの集合は、ネガティブトレーニングクラスを提供するのに対し、対話システムに向けられた発話の集合は、ポジティブトレーニングクラスを提供する。対話システムに向けられた発話の集合からの発話は、手動で注釈付けされ得る。対話システムに向けられた発話の集合は、対話システムに向けられるべきと判定されたドメイン外発話及び／又はドメイン内発話を含み得る。オーファン検出モデルにおいて使用される素性集合に応じて、オーファン検出器は、語彙解析器、品詞タグ付け器、構文解析器、及び意味解析器のうちの１以上を使用することができる。

インタラクション管理器１３４は、対象理解コンポーネント１０４の出力に対して作用する。インタラクション管理器１３４は、対話（すなわち、会話）の流れに最終的に関与する、対話システムのステートフルコンポーネントである。インタラクション管理器１３４は、現在の対話状態を反映するように対話セッション１３６を更新することにより、会話を追跡し、会話の流れを管理する。対話セッション１３６は、ユーザと対話システムとの間のインタラクションのありとあらゆる態様を記憶することができるデータ集合である。対話セッションにより記憶される対話状態情報のタイプ及び量は、対話システムの設計及び複雑度に基づいて変わり得る。例えば、ほとんどの対話システムにより記憶される基本的な対話状態情報は、発話履歴、ユーザからの最後のコマンド、及び最後のマシンアクション、並びに現在の対話状態を含むが、これらに限定されるものではない。インタラクション管理器１３４は、現在の対話状態に基づいて、構造化されている又は構造化されていない情報ソース（例えば、ナレッジベース、連絡先リスト等）から情報を取得すること等であるがこれに限定されるものではない適切なマシンアクションを実行する。

応答生成器１３８は、対話システムの応答を生成する。応答生成器１３８は、ユーザへの提示のために応答を自然（すなわち人間）音テキストに変換する自然言語生成コンポーネント１４０を含み得る。応答生成器１３８はまた、応答を音声に変換し、対話システムがユーザと言葉でインタラクトすることを可能にするテキストツースピーチコンポーネント１４２を含み得る。応答は、クライアントデバイスの出力デバイスのうちの１以上を介してレンダリングされる。

図２は、オーファンを検出して処理する方法の態様を示す高レベルフローチャートである。方法２００は、入力動作２０２を含み得、入力動作２０２において、対話システムは、処理される１以上の入力を受信する。オンライン使用シナリオにおいて、入力は、通常、ユーザからリアルタイムに受信される個々の発話である。必要な場合には、認識動作２０４が、発話を、オーファン検出器１０２により使用可能な形式に変換する。例えば、認識動作２０４は、音声認識を発話に適用し、音声を解読してテキストにすることを含み得る。オフライン使用シナリオにおいて、入力は、発話の既存のコーパスからのものであることもあるし、対話システムの多数のユーザ又はウェブ検索エンジンクエリログからのクエリからのものであることもある。

ドメイン分類動作２０６は、発話が、対象理解コンポーネント１０４のタスクドメインのうちのいずれかによってカバーされているかどうかに基づいて、発話を、ドメイン内又はドメイン外として分類する。ドメイン分類動作２０６は、各ドメインが、発話が当該ドメインに属するかどうかを判定する関連付けられた分類器を有する「受け入れ（acceptance）」アプローチ、最上位レベル分類器が発話についてのドメインを判定する「トリアージ（triage）」アプローチ、又はこれらのアプローチの組合せを使用することができる。

ドメイン分類は、一般には、包含（inclusion）（すなわち、定義されているタスクドメインによりカバーされている発話を検出すること）の観点で表現されるが、本発明の態様は、ドメイン外発話の処理にフォーカスする。したがって、本説明及び／又は特許請求の範囲において、ドメイン外発話の検出及び／又は分類について言及され得る。発話がドメイン外発話であるという判定は、単に、対象言語理解対話システムのドメインに包含されるかについて発話をテストすることにより得られた結果の否定により達成され得る。すなわち、対象言語理解対話システムのいかなるドメインについても包含基準を満たさない発話は、ドメイン外発話であると判定される。

ドメイン分類動作２０６の後、ドメイン内発話理解動作２０８及びドメイン内発話行為動作２１０が実行される。ドメイン内発話理解動作２０８は、ドメイン内発話の意図（すなわち意味）を判定する。ドメイン内発話理解動作２０８により意味を割り当てる態様は、項（argument）抽出、スロットフィリング、及び他の意味処理機能・アプローチを含み得るが、これらに限定されるものではない。

ドメイン内発話行為動作２１０は、現在の対話状態に基づいて、ドメイン内発話の意図を達成するものとして決定された対話行為（dialog act）を実行する。例えば、ドメイン内発話行為動作２１０は、項において指定されている日時にアラームを設定するように、アラームアプリケーションとインタフェースをとったり、項において指定されている人物に電話をかけるように、電話アプリケーションとインタフェースをとったりすることができる。ドメイン内発話の処理のためのドメイン固有のルール又は命令は、通常、タスクドメイン定義の一部として指定される。

一般に、ドメイン内発話インタラクションは、使用されているデバイス、環境、及びアプリケーションに合わせて調整される。スマートテレビジョン、ケーブルボックス、又は、インターネットテレビジョンデバイス若しくはインターネットテレビジョンアプリケーションについてのドメイン内タスクは、ストリーミングビデオコンテンツを再生すること、チャンネルを変更すること、及びボリュームを調整することを含み得る。例えば、汎用コンピューティングデバイスにおいて、仮想パーソナルアシスタントについてのドメイン内タスクは、リマインダを管理すること、アラームを管理すること、フライト予約を行うこと、及びホテル予約を行うことを含み得る。スマートフォンにおいて、仮想パーソナルアシスタントについてのドメイン内タスクは、セルラキャリアネットワークを介して電話をかけること及びテキストメッセージを送信することに拡張され得る。

素性抽出動作２１２は、発話を分類及び理解するために使用される素性を抽出する。素性抽出は、語彙解析動作２１４、品詞タグ付け動作２１６、構文解析動作２１８、及び意味解析動作２２０のうちの１以上を含み得る。素性抽出はまた、ドメイン外発話を、雑談又はｆａｃｔｏｉｄ型質問として分類し、ドメイン内発話を分類するのに有用な素性を抽出するために用いられ得る。ドメイン内発話及びドメイン外発話についての素性抽出は、別々に生じてもよいし、ドメイン分類動作２０４の前に生じる組合せ動作において生じてもよい。

方法２００は、対応するドメイン外発話を検出して処理するためのｆａｃｔｏｉｄ型質問処理動作２２２及び／又は雑談処理動作２２４を任意的に含んでもよい。

オーファン判定２２６は、ドメイン外発話がオーファンであるか否かを識別する。オーファンを検出することは、驚くほど難しいタスクである。オーファン判定２２６は、発話の具体的な意図（すなわち、発話の内容）を理解するのではなく、発話の意図がどのように表現されているか（すなわち、発話の構造）にフォーカスする。例えば、コマンドとして構造化されているドメイン外発話（例えば、「ｓｅｎｄｅｍａｉｌｔｏｍｏｍ」）は、一般ウェブ検索に対するキーワードであるというよりも、具体的ではあるがサポートされていないアクションを実行するための、対話システムに対する要求である可能性が高い。同様に、固有表現又は名詞句のみを含み他に別のもの（例えば、ｈｏｔｅｌ）を含まない発話は、ウェブ検索に向けられるキーワードである可能性がより高いが、いくつかの例（例えば、「ｈｏｔｅｌｒｅｓｅｒｖａｔｉｏｎ」）は、曖昧なことがある。

既知のタスクドメインについてのドメイン分類器からの信頼度スコアは、特に有用であるというわけではない。なぜならば、オーファン判定２２６への入力は、カバーされているタスクドメインにより棄却されたドメイン外発話であるからである。

線形カーネルＳＶＭ分類タスクは、形式上次のように定義され得る：対象言語理解対話システムに向けられた発話（例えば、ＶＰＡに向けられた要求）のサンプルＶＰＡ＝｛（ｘ_１，−１），．．．，（ｘ_ｍ，−１）｝と、ウェブ検索クエリのサンプルＱ＝｛ｘ_ｎ，１｝，．．．，（ｘ_ｍ＋１，１）｝と、から抽出された素性を用いて蓄積されたトレーニングデータＤを所与として、線形カーネルＳＶＭ分類タスクは、

である超平面を見つけ、最大マージンをもってこれらのクラスを分割することとして、形式上定義され得る。

１つの語彙素性は、単純に、発話からの単語ｎグラムである。複数のドメインをカバーする発話を使用してオーファン分類器をトレーニングすることは、ドメイン非依存の語句（例えば、「ｃｏｕｌｄｙｏｕｐｌｅａｓｅｓｈｏｗｍｅ」や「ｗｈａｔｉｓｔｈｅ」）に対して、ドメイン固有の単語（例えば、レストランドメインにおける「ｃｕｉｓｉｎｅ」や「ｍｅａｌ」）の影響を効果的に低減させる。語彙モデルは、内容語との語彙の重なりがほとんどない場合でも、オーファンをウェブ検索クエリと区別するのに適している。なぜならば、ドメイン内指標句（indicator phrases）（例えば、「ｃａｎｙｏｕ」や「ｐｌｅａｓｅ」）が、良好なオーファン分類素性として機能するからである。語彙素性のみを用いてトレーニングされたオーファン分類器を使用して得られた結果が、比較のための重要なベースラインを提供する。表１は、ＶＰＡに向けられた要求及びウェブ検索クエリにおいて現れた一人称単語の相対度数を比較したものである。

オーファン検出器は、内容よりも構造に依存するので、構文素性がまた、オーファン分類器により使用され得る。オーファン判定において使用するためのベースライン構文素性は、品詞タグｎグラムである。発話における最初の単語として現れる所定の品詞は、その発話がオーファンであるか否かについて、良好な指標を提供する。例えば、最初の単語の品詞が、固有名詞である場合よりも、法助動詞（例えば、「ｃｏｕｌｄ」）又は原形動詞（例えば、「ｐｌａｙ」）である場合の方が、発話は、オーファンである可能性が高い。同様に、発話がオーファンである可能性が高いという良好な指標である他の品詞は、発話の最初の単語として現れる主格人称代名詞（例えば、「Ｉ」）又は所有格人称代名詞（例えば、「ｍｙ」）を含む。

表２は、ＶＰＡに向けられた要求及びウェブ検索クエリにおいて現れた最初の単語についての最頻出品詞タグの相対度数を比較したものである。確認できるように、ウェブ検索クエリよりも要求の方が、発話の最初の単語として動詞を有する可能性が著しく高い。

図３は、構成要素に基づく構文構造解析の例を示している。「ｆｉｎｄｂｒｉｇｈｔｎｅｓｓｓｅｔｔｉｎｇｓ」という単語群は、動詞句（ＶＰ）及び名詞句（ＮＰ）から構成される文（Ｓ）を形成している。名詞句は、「ｓｅｔｔｉｎｇｓ」という複数形名詞（ＮＮＳ）と、これに結合された「ｂｒｉｇｈｔｎｅｓｓ」という単数形名詞（ＮＮ）と、から構成される。動詞句は、「ｆｉｎｄ」という動詞（ＶＢ）と、その目的語としての役割を果たす「ｂｒｉｇｈｔｎｅｓｓｓｅｔｔｉｎｇｓ」という名詞句と、から構成される。構文解析木の構造は、Ｓ（ＶＰ（ＮＰ））という構文形状素性（syntactic shape feature）として表現され得、これは、ＶＰＡに向けられた最頻出形状のうちの１つである。構文解析木形状は、オーファン分類器モデルにおいて有用な別の構文素性である。実際、ウェブ検索クエリよりも、ＶＰＡに向けられた要求において、著しく多い構文解析木形状が現れている。ＶＰＡに向けられた要求についての多数の構文解析木形状は、適合率よりも再現率に関して、構文解析木形状を有用なものにする。

オーファン分類器モデルにおいて、意味素性も有用である。必須ではないが、ドメイン内発話についての典型的な意味フレームは、意図を含み、意図は、一般に、述語／項（例えば、「ｍａｋｅ／ｒｅｓｅｒｖａｔｉｏｎ」、「ｂｕｙ／ｔｉｃｋｅｔ」、又は「ｓｅｔ／ａｌａｒｍ」）の形である。述語と項の集合との存在についてチェックすることは、高適合率オーファン分類のための１つの意味素性を与える。

意味解析は、汎用ナレッジベース意味解析器（例えば、ＮＬＰＷｉｎ）を使用して達成され得る。オーファン検出器を使用して評価される発話のほとんどは、解析するのに非常に短く且つ単純であるので、意味解析も、浅い意味解析器（例えば、ＰｒｏｐＢａｎｋ）又は深い意味解析器（例えば、ＦｒａｍｅＮｅｔ）を使用して、そのような解析器が自然発話言語を解析することになる場合には一般には特にロバストではないとしても、達成され得る。

図４は、図３において構文解析された文に適用される意味解析の例を示している。図示される意味解析木は、「ＡＲＧ０」が通常は主語であり、「ＡＲＧ１」が直接目的語であり、「ｍｏｄ」が修飾語であり、「ｍｏｄｅ」が、通常文ではない文の対話行為（例えば、命令、疑問、又は感嘆）を示す、抽象的意味表現（ＡＭＲ：abstract meaning representation）形式を用いている。意味解析の構造は、Ｐｒｅｄ（Ａｒｇ０，Ａｒｇ１，ｍｏｄｅ：ｉｍｐｅｒａｔｉｖｅ（命令））という意味形状素性（semantic shape feature）として表現され得、これは、ＶＰＡに向けられた要求についての最頻出意味形状である。対照的に、スタンドアロンコンセプト（例えば、「ｆａｃｅｂｏｏｋ（登録商標）」）の意味形状は、ＶＰＡに向けられた要求よりもウェブ検索クエリにおいて頻繁に、約１６回現れている。

オーファン分類器モデルは、素性レベル又は決定レベルにおいて組み合わされ得る。すなわち、単一のオーファン分類器モデルが、オーファン分類決定の基礎となる単一の出力を提供する複数の素性集合を使用してトレーニングされることもあるし、個々のオーファン分類器モデルが、オーファン分類決定を行うときに評価するための出力の集合を提供する各素性集合を使用してトレーニングされることもある。

オーファン検出器は、ドメインモデルにより棄却された発話が、オーファンであるか又はウェブ検索クエリであるかを判定し、処理されるオーファンを返す。オーファンがどのように処理されるかは、オーファン検出器がオンラインシナリオにおいて使用されているか又はオフラインシナリオにおいて使用されているかに応じて変わり得る。

図２に戻ると、オーファン処理動作２２８は、向上したユーザエクスペリエンスを提供する適切なやり方で、オーファン判定２２６により識別されたオーファンを処理する。例えば、オーファン処理動作２２８は、オーファンを一般ウェブ検索クエリに提供するのを回避してもよいし、オーファンについての一般ウェブ結果のレポーティングを止めさせてもよい。代わりに、オーファン処理動作２２８は、ユーザが特定のアクション要求を行ったことを対話システムが理解したが、その機能が対話システムによっては現在サポートされていないことを示すメッセージを生成することができる。それほど出過ぎていないアプローチにおいて、オーファン処理動作２２８は、オーファンに基づく一般ウェブ検索結果とともに、オーファンがサポートされていないアクションの要求のようであることを対話システムが理解し、その要求を満足させることができないために、ユーザが実際には一般ウェブ検索結果を実行するよう意図していた場合に備えて上記検索結果が提供されていることをユーザに知らせるメッセージを、提供することができる。オーファン処理動作２２８の態様は、オーファン判定２２６により生成された信頼度スコアを使用して、オーファンをどのように処理するかを決定することを含み得る。オーファン処理動作２２８は、代替的又は追加的に、サポートされていないアクションをどのように実行するかを対話システムに教える機会をユーザに提供してもよい。

ユーザエクスペリエンスが向上するのは、対話システムがユーザの要求を満足させることができるためではなく、ユーザの要求を満足させることができないときでも、対話システムが、意味のある応答を提供するためである。ユーザは、ユーザが求めたことを行う代わりに、対話システムが、理にかなっていない応答（すなわち、ウェブ検索クエリ結果）を提供した理由を理解するようになり、このことは、概して、対話システムに対するユーザのフラストレーションを低減させる。

発話カタログ化（cataloging）動作２３０は、対話システムにより受信された発話とともに、対話システムにより割り当てられた分類を記憶することができる。発話カタログ化動作２３０は、対話システムにより受信された全ての発話又は選択されたクラスの発話のみ（例えば、限定ではなく、ドメイン内、ドメイン外、オーファン、ウェブ検索クエリ、雑談、又はｆａｃｔｏｉｄ型質問）及びそれらの組合せを記憶するために用いられ得る。例えば、発話カタログ化動作２３０は、ドメイン外として分類された発話のみを記憶することができる。別の例において、オーファン及びウェブ検索クエリのみが記憶され得る。

受信される入力のタイプ及びクラスに応じて、上記の動作のうちの一部又は全てが、オフラインシナリオでは省かれ得る。例えば、コーパスは、解析されるべきドメイン外発話、又は、ドメイン分類等のステップを不要にする、コーパスに適用されるフィルタを含み得る。同様に、コーパス又はログは、テキストとして記憶され、認識動作を必要としない。さらに、発話の実際の処理は、オフライン解析の目的では、一般に不要である。

図５は、オフライン使用シナリオにおいて、オーファンを用いた、新たなタスクドメイン（すなわち、カバーされていないタスクドメイン）のための意味モデルの教師なしトレーニング（学習）の方法の態様を示す高レベルフローチャートである。方法５００は、オーファン検出器により検出されたオーファンに対して、一般解析動作５０２を実行することで開始する。クエリグループ化動作５０４は、一般解析動作５０２の結果と、ウェブ検索エンジンからの知識と、を使用して、類似するオーファン及びウェブ検索クエリをグループ化する。有用なグループ化の例は、限定ではないが、同じ述語及び項のタイプを共有していること（例えば、「ｐｌａｙｍａｄｏｎｎａ」及び「ｐｌａｙｓｏｍｅａｄｅｌｅ」）に基づくグループ化、同じ項のタイプを共有していること（例えば、「ｓｈｏｗｍｅｄｅｌｔａｓｔｏｃｋ」及び「ｈｏｗｉｓｕｎｉｔｅｄｄｏｉｎｇｔｏｄａｙ」）に基づくグループ化、又は、同じ主項（main argument）を共有していること（例えば、「ｒｅｃｉｐｅｏｆａＭｅｄｉｔｅｒｒａｎｅａｎｄｉｓｈ」及び「ＩｎｅｅｄｔｈｅｒｅｃｉｐｅｏｆＴｉｒａｍｉｓｕ」）に基づくグループ化を含む。意味テンプレート化動作５０６は、例えば、ＡＭＲ解析形状に基づき得る意味テンプレートを生じさせる。クエリシーディング（seeding）動作５０８は、意味クラスタリング（例えば、潜在的ディリクレ配分法）を利用してシードクエリを投入する（populates）。トレーニング動作５１０は、シードクエリを使用して、ドメイン検出及びスロットフィリングモデルをトレーニングする。追加解析動作５１２は、結果として生じたモデルを使用して、残りのクエリを自動的に解析する。再トレーニング動作５１４は、追加解析動作５１２の結果を使用して、意味モデルを再トレーニングする。

広い視野からオーファン検出の利点を見るために、１つの仮想パーソナルアシスタントシステムからの約１００万の発話を含む対話コーパスの解析は、それらの発話の大部分が、仮想パーソナルアシスタントにより処理される９個のアトミックドメイン（アラーム、カレンダー、ノート、通話、ショートメッセージサービス、リマインダ、電子メール、天気、及び場所）のうちの１つに属するものとして分類されなかったことを示した。上記発話の３０％のみがドメイン内発話であった（すなわち、９個のアトミックドメインのうちの１つに属した）。上記発話の別の５％は、処理できなかった（例えば、理解できなかった）。残りの６５％は、ｆａｃｔｏｉｄ型質問、雑談、ウェブ検索クエリ、及びオーファンを含むドメイン外発話であった。

ドメイン外発話の分布をより厳密に見ると、オーファンが、上記発話の約１８％を占めた。ウェブ検索クエリが、上記発話の別の２３％を占めた。ｆａｃｔｏｉｄ型質問及び雑談の組合せが、上記発話の残りの２４％を占めた。

ｎ分割交差検定のために、オーファン検出器分類器モデルが、頻度とは無関係に、上位頻出及び中頻出のクエリから選択された約１０万のウェブ検索クエリと、既存の仮想パーソナルアシスタント対話コーパスからの約１２万のＶＰＡに向けられた要求と、を含むトレーニングデータから構築された。ウェブ検索クエリが、ネガティブトレーニングクラスを形成し、ＶＰＡに向けられた要求が、ポジティブトレーニングクラスを形成した。個々の素性集合（すなわち、語彙、品詞タグ、構文解析、及び意味解析）に基づいてオーファン分類器モデルの相対性能を評価するために、オーファン分類器モデルをトレーニングするときに、７つの既知のタスクドメインのうちの１つを除く全てについてのドメイン内発話が使用された。除かれたタスクドメインは、オーファンとして分類されるべきであり、且つ、他のタスクドメインのいずれによってもピックアップされるべきではない発話の既知の集合を提供した。

オーファン検出器についての２つの主な成功尺度は、適合率及び再現率である。適合率は、オーファン検出器により識別されたオーファンの総数に対する、オーファン検出器により正しく識別されたオーファンの割合を表す。再現率は、オーファン検出器により処理されたドメイン外発話の総数に対する、オーファン検出器により正しく識別されたオーファンの数を表す。検定において、語彙モデル、品詞タグモデル、構文解析モデル、及び意味解析モデルは、８０％を超える平均再現率を示したが、適合率は変動した。

個別的には、語彙モデル、品詞タグモデル、構文解析モデル、及び意味解析モデルは、全て、８０％を超える平均再現率を示したが、結果の適合率は変動した。表３は、利用可能な素性集合の各々を用いてトレーニングされたオーファン分類器モデルの相対適合率を示している。構文モデルの適合率は、低減される傾向にある。なぜならば、ｆａｃｔｏｉｄ型質問（例えば、「ｃａｎｙｏｕｐａｉｎｔｗｏｏｄｆｒａｍｅｈｏｍｅｓｉｎｗｉｎｔｅｒ」）及びＶＰＡに向けられた要求（例えば、「ｃａｎｙｏｕｔｅｌｌｍｅａｊｏｋｅ」）は、しばしば、同じ構文構造を共有するからである。ｆａｃｔｏｉｄ型質問とＶＰＡに向けられた要求とを区別することは、重要な意味的曖昧性解消タスクである。

表４は、オーファン分類器モデルをトレーニングするときに除かれた既知のタスクドメインから検出された代表発話を示している。語彙モデル及び品詞タグモデルは、構文解析モデル及び意味解析モデルと比較して、特定のキーフレーズ（例えば、「ｃａｎｙｏｕｐｌｅａｓｅｓｈｏｗｍｅ．．．」）を含むより長い発話を返す傾向にある。

本発明の態様は、システム、デバイス、及び他の製品として、又は、ハードウェア、ソフトウェア、コンピュータ読み取り可能な媒体、若しくはこれらの組合せを用いる方法として、実施され得る。以下の説明及び関連する図面は、本明細書に記載の本発明の態様を実施するために利用され得る多数のシステムアーキテクチャ及びコンピューティングデバイスを表す選択されたシステムアーキテクチャ及びコンピューティングデバイスを示しているが、本発明の範囲をいかなるようにも限定するために使用されるべきではない。

様々なタイプの情報及びユーザインタフェースが、オンボードコンピューティングデバイスディスプレイを介して、又は、１以上のコンピューティングデバイスに関連付けられたリモートディスプレイユニットを介して、表示され得る。例えば、様々なタイプの情報及びユーザインタフェースは、様々なタイプの情報及びユーザインタフェースが投影される壁面に表示され、インタラクトされ得る。本発明が実施され得る複数のコンピューティングシステムとのインタラクションは、限定ではないが、キーストローク入力、タッチスクリーン入力、音声入力又は他のオーディオ入力、ジェスチャ入力（関連付けられたコンピューティングデバイスが、コンピューティングデバイスの機能を制御するためのユーザジェスチャをキャプチャして解釈するための検出（例えばカメラ）機能を有する場合）等により実現され得る。

図６は、本発明の態様が実施され得るコンピューティングデバイスについてのアーキテクチャを示すブロック図である。コンピューティングデバイス６００は、メインフレームコンピュータ、ミニコンピュータ、サーバ、パーソナルコンピュータ（例えば、デスクトップコンピュータ及びラップトップコンピュータ）、タブレットコンピュータ、ネットブック、スマートフォン、スマートウォッチ、ビデオゲームシステム、及びスマートテレビジョン、並びにスマートコンシューマ電子デバイスを含むがこれらに限定されるものではない多種多様なコンピュータ及びプログラム可能なコンシューマ電子デバイスにおいて具現化される本発明の態様を実施するのに適している。

破線６０８により示される基本的構成において、コンピューティングデバイス６００は、少なくとも１つの処理ユニット６０２及びシステムメモリ６０４を含み得る。コンピューティングデバイスの構成及びタイプに応じて、システムメモリ６０４は、揮発性ストレージ（例えば、ランダムアクセスメモリ）、不揮発性ストレージ（例えば、読み取り専用メモリ）、フラッシュメモリ、又はこのようなメモリの任意の組合せを含み得るが、これらに限定されるものではない。システムメモリ６０４は、本明細書に記載の本発明の態様を実装するソフトウェアを含め、コンピューティングデバイス６００の動作を制御するのに適しているオペレーティングシステム６０５と、ソフトウェアアプリケーション６２０を動作させるのに適している１以上のプログラムモジュール６０６と、を含み得る。

ソフトウェアアプリケーション６２０は、処理ユニット６０２上で実行されている間に、方法２００及び５００の段階のうちの１以上の段階を含むがこれに限定されるものではないプロセスを実行することができる。本発明の態様に従って使用され得る他のプログラムモジュールは、電子メールアプリケーション、連絡帳アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、データベースアプリケーション、スライドプレゼンテーションアプリケーション、又はコンピュータ支援製図アプリケーションプログラム等を含み得る。

基本的構成に加えて、コンピューティングデバイス６００は、さらなる特徴又は機能を有することができる。例えば、コンピューティングデバイス６００は、例えば、磁気ディスク、光ディスク、又はテープといったさらなるデータ記憶デバイス（着脱可能な記憶デバイス及び／又は着脱不可能な記憶デバイス）をさらに含み得る。そのようなさらなる記憶デバイスが、着脱可能な記憶デバイス６０９及び着脱不可能な記憶デバイス６１０により示されている。

コンピューティングデバイス６００は、キーボード、マウス、ペン、サウンド入力デバイス、タッチ入力デバイス等といった１以上の入力デバイス６１２をさらに有することができる。コンピューティングデバイス６００は、ディスプレイ、スピーカ、プリンタ等といった１以上の出力デバイス６１４も含み得る。前述のデバイスは例であり、他のデバイスも使用され得る。コンピューティングデバイス６００は、他のコンピューティングデバイス６１８との通信を可能にする１以上の通信接続６１６を含み得る。適切な通信接続６１６の例は、ＲＦ送信機、ＲＦ受信機、及び／又はトランシーバ回路；ユニバーサルシリアルバス（ＵＳＢ）、パラレルポート、及び／又はシリアルポートを含むが、これらに限定されるものではない。

本明細書で使用されるコンピュータ読み取り可能な媒体という用語は、コンピュータ記憶媒体を含み得る。コンピュータ記憶媒体は、コンピュータ読み取り可能な命令、データ構造、又はプログラムモジュールといった情報を記憶するための任意の方法又は技術により実装された揮発性及び不揮発性の着脱可能及び着脱不可能な媒体を含み得る。システムメモリ６０４、着脱可能な記憶デバイス６０９、及び着脱不可能な記憶デバイス６１０は全て、コンピュータ記憶媒体（すなわち、メモリストレージ）の例である。コンピュータ記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、若しくは他のメモリ技術、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、若しくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、若しくは他の磁気記憶デバイス、又は、情報を記憶するために使用することができ、コンピューティングデバイス６００がアクセスできる任意の他の製品を含み得る。そのようなコンピュータ記憶媒体のいずれもが、コンピューティングデバイス６００の一部であり得る。

本発明の態様は、ディスクリート電子素子を備える電気回路、ロジックゲートを含むパッケージ化若しくは集積された電子チップ、マイクロプロセッサを利用する回路、又は、電子素子若しくはマイクロプロセッサを含む単一のチップにおいて実施され得る。例えば、本発明の態様は、システムオンチップ（ＳＯＣ）を介して実施され得、ＳＯＣにおいて、図示されるコンポーネントの各々又は多くが、単一の集積回路上に集積され得る。そのようなＳＯＣデバイスは、１以上の処理ユニット、グラフィックスユニット、通信ユニット、システム仮想化ユニット、及び様々なアプリケーション機能を含み得、これらの全てが、単一の集積回路として、チップ基板上に集積される（すなわち、「焼き付けられる」）。ＳＯＣを介して動作する場合、ソフトウェアアプリケーション６２０に関して本明細書で説明された機能は、単一の集積回路（チップ）上で、コンピューティングデバイス６００の他のコンポーネントとともに集積される特定用途向けロジックを介して動作し得る。本発明の態様はまた、機械技術、光学技術、流体技術、及び量子技術を含むがこれらに限定されるものではない、例えば、ＡＮＤ、ＯＲ、及びＮＯＴといった論理演算を実行することができる他の技術を使用して実施され得る。さらに、本発明の態様は、汎用コンピュータ、又は、任意の他の回路若しくはシステムにおいて実施され得る。

図７Ａは、本発明を実施するのに適しているモバイルコンピューティングデバイス７００を示している。適切なモバイルコンピューティングデバイスの例は、携帯電話機、スマートフォン、タブレットコンピュータ、サーフェスコンピュータ、及びラップトップコンピュータを含むが、これらに限定されるものではない。基本的構成において、モバイルコンピューティングデバイス７００は、入力要素及び出力要素の両方を有するハンドヘルドコンピュータである。モバイルコンピューティングデバイス７００は、一般に、ユーザがモバイルコンピューティングデバイス７００に情報を入力することを可能にする１以上の入力ボタン７１０及びディスプレイ７５０を含む。モバイルコンピューティングデバイス７００のディスプレイ７０５はまた、入力デバイス（例えば、タッチスクリーンディスプレイ）として機能することができる。任意的な側面入力要素７１５が含まれる場合、側面入力要素７１５は、さらなるユーザ入力を可能にする。側面入力要素７１５は、回転スイッチ、ボタン、又は任意の他のタイプの手動入力要素であり得る。モバイルコンピューティングデバイス７００は、より多い又はより少ない入力要素を組み込んでもよい。例えば、ディスプレイ７０５は、タッチスクリーンでなくてもよい。モバイルコンピューティングデバイス７００は、任意的なキーパッド７３５を含んでもよい。任意的なキーパッド７３５は、物理キーパッドであってもよいし、タッチスクリーンディスプレイ上に生成される「ソフト」キーパッドであってもよい。出力要素は、グラフィカルユーザインタフェースを表示するためのディスプレイ７０５、ビジュアルインジケータ７２０（例えば、発光ダイオード）、及び／又はオーディオトランスデューサ７２５（例えば、スピーカ）を含む。モバイルコンピューティングデバイス７００は、ユーザに触覚フィードバックを提供するための振動トランスデューサを組み込むことができる。モバイルコンピューティングデバイス７００は、外部デバイスに信号を送信する又は外部デバイスから信号を受信するためのオーディオ入力ポート（例えば、マイクロフォンジャック）、オーディオ出力ポート（例えば、ヘッドフォンジャック）、及びビデオ出力ポート（例えば、ＨＤＭＩ（登録商標）ポート）等の入力ポート及び／又は出力ポートを組み込むことができる。

図７Ｂは、本発明の態様が実施され得るモバイルコンピューティングデバイスについてのアーキテクチャを示すブロック図である。一例として、モバイルコンピューティングデバイス７００は、１以上のアプリケーション（例えば、ブラウザ、電子メールクライアント、ノート、連絡帳マネージャ、メッセージングクライアント、ゲーム、及びメディアクライアント／プレーヤ）を実行することができるスマートフォン等のシステム７０２において実装され得る。

１以上のアプリケーションプログラム７６５は、メモリ７６２にロードされ、オペレーティングシステム７６４上で又はオペレーティングシステム７６４に関連して、実行され得る。アプリケーションプログラムの例は、電話ダイヤラプログラム、電子メールプログラム、個人情報管理（ＰＩＭ）プログラム、ワードプロセッシングプログラム、スプレッドシートプログラム、インターネットブラウザプログラム、メッセージングプログラム等を含む。システム７０２はまた、メモリ７６２内に不揮発性ストレージ領域７６８を含む。不揮発性ストレージ領域７６８は、システム７０２に電力が供給されない場合に失われるべきでない永続的情報を記憶するために使用され得る。アプリケーションプログラム７６５は、電子メールアプリケーションにより使用される電子メール又は他のメッセージ等といった情報を不揮発性ストレージ領域７６８に記憶することができ、不揮発性ストレージ領域７６８内のそのような情報を使用することができる。同期アプリケーション（図示せず）が、システム７０２に存在し、ホストコンピュータに存在する対応する同期アプリケーションとインタラクトするようにプログラムされ、ホストコンピュータに記憶される対応する情報と同期される情報が不揮発性ストレージ領域７６８に記憶されて保持されるようにする。本明細書に記載の本発明の態様を実装するソフトウェアを含む他のアプリケーションも、メモリ７６２にロードされ、モバイルコンピューティングデバイス７００上で実行され得ることを理解されたい。

システム７０２は、１以上のバッテリとして実装され得る電源７７０を有する。電源７７０は、そのようなバッテリを補足又は再充電するＡＣアダプタ又は電源ドッキングクレードル等の外部電源をさらに含んでもよい。

システム７０２はまた、無線周波数通信を送信及び受信する機能を実行する無線機７７２を含み得る。無線機７７２は、通信キャリア又は通信サービスプロバイダを介する、システム７０２と外部世界との間の無線接続を円滑にする。無線機７７２との間の伝送は、オペレーティングシステム７６４の制御下で行われる。すなわち、無線機７７２により受信される通信は、オペレーティングシステム７６４を介してアプリケーションプログラム７６５に伝達され得、その逆も同様である。

ビジュアルインジケータ７２０は、視覚的通知を提供するために使用され得、且つ／あるは、オーディオインタフェース７７４は、オーディオトランスデューサ７２５を介する可聴通知を生成するために使用され得る。図示されるように、ビジュアルインジケータ７２０は、発光ダイオード（ＬＥＤ）であり得る。これらのデバイスは、プロセッサ７６０及び他のコンポーネントがバッテリ電力を節約するためにシャットダウンした場合であっても、アクティブ化されたときに通知メカニズムにより指示される時間期間の間オンであり続けるように、電源７７０に直接的に接続され得る。ＬＥＤは、ユーザがデバイスの電源オン状態を指示するアクションをとるまで、無期限にオンであり続けるようにプログラムされてもよい。オーディオインタフェース７７４は、ユーザに可聴信号を提供し、ユーザからの可聴信号を受信するために、使用される。例えば、オーディオインタフェース７７４は、オーディオトランスデューサ７２５に接続されることに加えて、電話会話を円滑にするため等の、可聴入力を受信するマイクロフォンにも接続され得る。マイクロフォンはまた、以下で説明されるように、通知の制御を円滑にするためにオーディオセンサとして機能することができる。システム７０２は、静止画像、ビデオストリーム等を記録するためのオンボードカメラ７３０の動作を可能にするビデオインタフェース７７６をさらに含み得る。

システム７０２を実装するモバイルコンピューティングデバイス７００は、さらなる特徴又は機能を有することができる。例えば、モバイルコンピューティングデバイス７００は、磁気ディスク、光ディスク、又はテープといったさらなるデータ記憶デバイス（着脱可能な記憶デバイス及び／又は着脱不可能な記憶デバイス）をさらに含み得る。そのようなさらなる記憶デバイスが、不揮発性ストレージ領域７６８により示されている。周辺ポート７４０は、外部デバイスがモバイルコンピューティングデバイス７００に接続されることを可能にする。外部デバイスは、さらなる特徴又は機能をモバイルコンピューティングデバイス７００に提供することができ、且つ／あるいは、モバイルコンピューティングデバイス７００との間でデータが転送されることを可能にする。

モバイルコンピューティングデバイス７００により生成又はキャプチャされ、システム７０２を介して記憶されるデータ／情報は、上述したように、モバイルコンピューティングデバイス７００にローカルに記憶されることもあるし、そのようなデータは、無線機７７２を介して、又は、モバイルコンピューティングデバイス７００と、例えば、インターネット等の分散コンピューティングネットワークにおけるサーバコンピュータといった、モバイルコンピューティングデバイス７００に関連付けられた別のコンピューティングデバイスと、の間の有線接続を介して、デバイスによりアクセスされ得る任意の数の記憶媒体に記憶されることもある。そのようなデータ／情報は、無線機７７２を介して又は分散コンピューティングネットワークを介して、モバイルコンピューティングデバイス７００によりアクセスされ得ることを理解されたい。同様に、そのようなデータ／情報は、電子メール及び協調的データ／情報共有システムを含む周知のデータ／情報転送及び記憶手段に従って、記憶及び使用のために、コンピューティングデバイス間で容易に転送され得る。

図８は、本発明の態様を実施するための分散コンピューティングシステムの簡略ブロック図である。本明細書に記載の本発明の態様を実装するソフトウェアを含むソフトウェアアプリケーションに関連して開発、インタラクト、又は編集されるコンテンツは、異なる通信チャネル又は他のタイプのストレージに記憶され得る。例えば、様々な文書は、ディレクトリサービス８２２、ウェブポータル８２４、メールボックスサービス８２６、インスタントメッセージングストア８２８、又はソーシャルネットワーキングサイト８３０を使用して記憶され得る。ソフトウェアアプリケーションは、本明細書で説明したように、データ利用を可能にするために、これらのタイプのシステム等のうちの任意のものを使用することができる。サーバ８２０は、ソフトウェアアプリケーションをクライアントに提供することができる。一例として、サーバ８２０は、ウェブ上でソフトウェアアプリケーションを提供するウェブサーバであり得る。サーバ８２０は、ネットワーク８１５を介して、ウェブ上でソフトウェアアプリケーションをクライアントに提供することができる。例えば、クライアントデバイスは、コンピューティングデバイス６００として実装され、パーソナルコンピュータ８１８ａ、タブレットコンピュータ８１８ｂ、及び／又はモバイルコンピューティングデバイス（例えば、スマートフォン）８１８ｃにおいて具現化され得る。これらのクライアントデバイスのいずれも、ストア８１６からコンテンツを取得することができる。

本出願において提供された１以上の実施形態の説明及び図示は、本主題の全範囲の完全で明確且つ十分な開示を当業者に提供するよう意図されており、特許請求される発明の範囲をいかなるようにも限定又は制限するようには意図されていない。本出願において提供された態様、実施形態、例、及び詳細は、特許請求される発明のベストモードを実施するための情報を伝え、当業者がそのようなベストモードを実施することを可能にするのに十分であると考えられる。当業者に周知であると考えられる構造、リソース、動作、及びアクトの説明は、本出願の主題のそれほど知られていない又は特有の態様を曖昧にしないようにするために、簡潔である又は省略されていることがある。特許請求される発明は、本明細書において明示的に記されていない限り、本出願において提供された実施形態、例、又は詳細に限定されるものとして解釈されるべきではない。集合的に図示又は説明されているか、個別的に図示又は説明されているかにかかわらず、様々な特徴（構造的特徴及び方法的特徴の両方）は、特定の特徴セットを有する実施形態をもたらすよう選択的に含まれる又は除かれるように意図されている。さらに、図示又は説明された機能及び動作のいずれか又は全ては、任意の順番で実行されることもあるし、並行して実行されることもある。本出願の説明及び図示が提供されたが、当業者であれば、特許請求される発明のより広い範囲から逸脱しない、本出願において具現化される独創的なコンセプト全般のより広い態様の主旨に含まれる変形形態、変更形態、及び代替形態を想起できるであろう。

Claims

コンピュータにより実行される方法であって、
前記コンピュータが、対象言語理解対話システムのドメイン分類器により棄却されたドメイン外発話を受信するステップと、
前記コンピュータが、オーファン分類器を使用して、前記オーファン分類器への入力として提供された前記ドメイン外発話の素性に基づいて、前記ドメイン外発話をオーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定するステップであって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話である、ステップと、
前記ドメイン外発話が前記オーファンであると判定された場合、前記コンピュータが、前記ドメイン外発話が、前記対象言語理解対話システムに向けられた、前記所定のアクションを実行するための要求として理解されたことを示す応答を生成するステップと、
を含む方法。
前記ドメイン外発話は、前記対象言語理解対話システムによりサポートされているいずれのタスクドメインにも属さない、請求項１記載の方法。
前記ドメイン外発話が前記オーファンであると判定する前に、前記コンピュータが、前記ドメイン外発話から前記素性を抽出するステップをさらに含む、請求項１記載の方法。
前記ドメイン外発話の前記素性に基づいて、前記ドメイン外発話を前記オーファンとして分類することは、前記ドメイン外発話において述語及び項が存在することに基づいて、前記ドメイン外発話を前記オーファンとして分類することを含む、請求項１記載の方法。
少なくとも１つのドメインを有する対象言語理解対話システムであって、
発話から素性を抽出するよう動作可能な素性抽出器と、
第１の分類器であって、前記素性を入力として受信し、前記発話が、前記第１の分類器に関連付けられているいずれのドメインにも属さないドメイン外発話であるかどうかを判定するよう動作可能な第１の分類器と、
前記ドメイン外発話を受信し、前記ドメイン外発話がオーファンであるかどうかを判定するよう動作可能なオーファン検出器であって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話であり、前記オーファン検出器は、第２の分類器を含み、前記オーファン検出器は、前記第２の分類器が、前記素性を入力として受信し、前記素性に基づいて、前記ドメイン外発話を前記オーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定する、オーファン検出器と、
前記オーファンを一般ウェブ検索に送ることなく前記オーファンを処理するよう動作可能なインタラクション管理器と、
を備えた対象言語理解対話システム。
コンピュータにより実行されたときに、前記コンピュータに、１以上のタスクドメインを有する対象言語理解対話システムにおいてドメイン外発話からオーファンを検出する方法を実行させるコンピュータプログラムであって、前記方法は、
前記対象言語理解対話システムに関連付けられている入力デバイスを介して発話を受信するステップと、
ドメイン分類器の集合を使用して前記発話を処理し、前記発話が、前記対象言語理解対話システムによりサポートされているタスクドメインに属するかどうかを判定するステップと、
前記発話が、前記対象言語理解対話システムによりサポートされているいずれのタスクドメインにも属さない場合、前記発話を、ドメイン外発話として分類するステップと、
前記ドメイン外発話の意味形状を判定するステップと、
前記ドメイン外発話の前記意味形状が、述語及び目的語を有する基準意味形状に対応する場合、前記ドメイン外発話を、オーファンとして分類することにより、前記ドメイン外発話が前記オーファンであると判定するステップであって、前記オーファンは、前記対象言語理解対話システムに所定のアクションをとらせるための具体的な意図を表現しているドメイン外発話である、ステップと、
前記ドメイン外発話が前記オーファンであると判定された場合、前記ドメイン外発話が、前記対象言語理解対話システムに向けられた、前記所定のアクションを実行するための要求として理解されたことを示す出力を生成するステップと、
前記対象言語理解対話システムに関連付けられている出力デバイスを介して、前記出力をレンダリングするステップと、
を含む、コンピュータプログラム。